Deep Learning/Hands On Machine Learning34 Temporal Difference Learning : TD Learning * 독립적인 행동으로 이뤄진 강화 학습 문제는 보통 Marcov Decision Process로 modeling가능하다. 하지만, 문제점이 있는데 초기에 Agent들이 transfer probability $T(s, a, s')$를 알지 못하고, Reward $R(s, a, s')$에 대해 알지 못한다는 점이다. 보상에 대해 알기 위해서는 적어도 한 번은 각 state와 transfer를 경험해야 한다. 또한 transfer probability에 대해 신뢰할 만한 추정을 얻으려면 여러 번 경험을 해야 한다. * TD learning은 Q-value iteration algorithm과 비슷하지만, Agent가 MDP에 대해 일부만 알고 있는 경우를 다룬다. Agent는 탐험 정책(exploaration.. 2022. 1. 8. State-Action Value Function(Q Function) Q-value iteration Algorithm * 이전 포스팅에서 설명한 최적의 state value를 구하는 알고리즘은 agent의 최적의 policy를 알려주지는 않는다. state value는 상태 s에서의 최적 가치(최적 기대 보상)만을 나타내고, 어떤 action을 선택하는 것이 최적인지에 대해서는 다루지 않기 때문이다. * Bellman은 추가적으로 state-action 쌍의 최적 value를 추정할 수 있는 알고리즘을 발견했고 이를 Q-value algorithm이라고 한다. * state value 쌍에 대한 최적의 가치인 Q(s,a)는 agent가 state s에 도달해서 action a를 선택한 후 이 행동의 결과를 얻기 전에 평균적으로 기대할 수 있는(결과를 얻기 전이므로 이전 .. 2022. 1. 8. Markov Decision, State Value Function Markov chain(마르코프 연쇄) * 20세기 초 수학자 Andrey Markov가 메모리가 없는 확률 과정(stochastic process)인 마르코프 연쇄에 대해 연구함. * 이 과정에서 state의 개수는 정해져 있으며, state S에서 state S'로 이동하는 과정은 순전히 확률적으로 결정된다. 예를 들어 위 그림의 state 개수는 4개이다. state $S_0$에서 state $S_3$로 옮겨가는 것은 0.1의 확률로 이뤄지고, $S_1$으로는 0.2의 확률로, $S_0$ 자신으로 되돌아오는 것은 0.7의 확률로 이뤄진다. 이 과정은 과거에 대한 정보, 즉 메모리가 존재하지 않기 때문에 순전히 확률적으로 state의 변경이 일어나게 된다. 그리고 이는 다시 말해 상태 전이에 있어서 .. 2022. 1. 8. PG(Policy Gradient) Algorithm * Policy Gradient Algorithm(이하 PG 알고리즘) 은 높은 reward를 얻는 방향의 gradient를 따르도록 policy의 parameter를 최하는 알고리즘이다. REINFORCE 알고리즘 * 1992년 Ronald Williams가 소개한 가장 많이 사용되는 알고리즘 중 하나이다. 알고리즘은 아래와 같다. 1) NN(Neural Network) policy에 따라 여러 번에 걸쳐 게임을 플레이하고 매 step마다 선택된 action이 더 높은 가능성을 가지는 gradient를 계산한다. 이 때 gradient는 NN의 출력 $hat{p}$의 log값 $log(hat{p})$가 더 커지는 방향으로 gradient를 update한다. 이는 경사 하강법의 반대 기법을 사용하는 것(.. 2022. 1. 8. 이전 1 2 3 4 ··· 9 다음