본문 바로가기

전체 글101

2.5 Matrix Factorization Factorization(인수분해) * Matrix Factorization은 Matrix를 두 개 이상의 Marix들의 곱으로 나타내는 것을 뜻한다. * 예를 들어 Matrix A=BC로 표현하는 것 등을 뜻한다. LU Factorization * LU Factorization은 특정 matrix를 LU로 분해하는 것을 뜻한다. 여기서 L은 A unit lower triangular marix이고, U는 ehelon form(reduced가 아니라는 것을 주의)인 matrix이다. * 위 자료를 보면 더 이해하기 쉬울 것이다. matrix L을 보면 lower trangular는 diagonal 위의 값들이 모두 0인 형태를 뜻한다는 것을 알 수 있다. 단, 우리가 살펴볼 문제에서는 L의 diagona.. 2022. 1. 16.
Temporal Difference Learning : TD Learning * 독립적인 행동으로 이뤄진 강화 학습 문제는 보통 Marcov Decision Process로 modeling가능하다. 하지만, 문제점이 있는데 초기에 Agent들이 transfer probability $T(s, a, s')$를 알지 못하고, Reward $R(s, a, s')$에 대해 알지 못한다는 점이다. 보상에 대해 알기 위해서는 적어도 한 번은 각 state와 transfer를 경험해야 한다. 또한 transfer probability에 대해 신뢰할 만한 추정을 얻으려면 여러 번 경험을 해야 한다. * TD learning은 Q-value iteration algorithm과 비슷하지만, Agent가 MDP에 대해 일부만 알고 있는 경우를 다룬다. Agent는 탐험 정책(exploaration.. 2022. 1. 8.
State-Action Value Function(Q Function) Q-value iteration Algorithm * 이전 포스팅에서 설명한 최적의 state value를 구하는 알고리즘은 agent의 최적의 policy를 알려주지는 않는다. state value는 상태 s에서의 최적 가치(최적 기대 보상)만을 나타내고, 어떤 action을 선택하는 것이 최적인지에 대해서는 다루지 않기 때문이다. * Bellman은 추가적으로 state-action 쌍의 최적 value를 추정할 수 있는 알고리즘을 발견했고 이를 Q-value algorithm이라고 한다. * state value 쌍에 대한 최적의 가치인 Q(s,a)는 agent가 state s에 도달해서 action a를 선택한 후 이 행동의 결과를 얻기 전에 평균적으로 기대할 수 있는(결과를 얻기 전이므로 이전 .. 2022. 1. 8.
Markov Decision, State Value Function Markov chain(마르코프 연쇄) * 20세기 초 수학자 Andrey Markov가 메모리가 없는 확률 과정(stochastic process)인 마르코프 연쇄에 대해 연구함. * 이 과정에서 state의 개수는 정해져 있으며, state S에서 state S'로 이동하는 과정은 순전히 확률적으로 결정된다. 예를 들어 위 그림의 state 개수는 4개이다. state $S_0$에서 state $S_3$로 옮겨가는 것은 0.1의 확률로 이뤄지고, $S_1$으로는 0.2의 확률로, $S_0$ 자신으로 되돌아오는 것은 0.7의 확률로 이뤄진다. 이 과정은 과거에 대한 정보, 즉 메모리가 존재하지 않기 때문에 순전히 확률적으로 state의 변경이 일어나게 된다. 그리고 이는 다시 말해 상태 전이에 있어서 .. 2022. 1. 8.