본문 바로가기
Deep Learning/Hands On Machine Learning

Temporal Difference Learning : TD Learning

by 대소기 2022. 1. 8.

* 독립적인 행동으로 이뤄진 강화 학습 문제는 보통 Marcov Decision Process로 modeling가능하다. 하지만, 문제점이 있는데 초기에 Agent들이 transfer probability $T(s, a, s')$를 알지 못하고, Reward $R(s, a, s')$에 대해 알지 못한다는 점이다. 보상에 대해 알기 위해서는 적어도 한 번은 각 state와 transfer를 경험해야 한다. 또한 transfer probability에 대해 신뢰할 만한 추정을 얻으려면 여러 번 경험을 해야 한다.

* TD learning은 Q-value iteration algorithm과 비슷하지만, Agent가 MDP에 대해 일부만 알고 있는 경우를 다룬다. Agent는 탐험 정책(exploaration policy)을 사용해 MDP를 탐험한다. 탐험이 진행될 수록 TD learning algorithm이 실제로 관측된 값들(transfer probability, reward)에 근거해 상태 가치의 추정값을 update한다.

* 여기서 $\alpha$는 learning rate이다.

* $r + \gamma V_k(s')$는 TD target이다.

* $\delta_k (s, r, s')$는 TD error라고 부른다.

* 이 식의 첫 번째 형태를 더 간단히 쓰는 법은 아래 표기법을 사용하는 것이다.

* 이 표기법을 사용하면 첫 번째 TD learning algorithm 식을 다음과 같이 변환할 수 있다.

* 각 state s에서 algorithm은 agent가 이 state를 떠났을 때의 (당장의 reward)와 (나중에 기대할 수 있는 reward)의 moving average를 저장한다.