ch.05 행위자 - 비평자 모형

Remind

REINFORCE

상태를 입력받아 가능한 모든 동작을 선택할 확률을 출력하는 정책망을 이용
하나의 에피소드를 끝낸 후, 얻은 보상들로 학습하는 일화적(Episodic) 알고리즘

수익 $R = \sum{\gamma_t}{r_t}$

할인계수 — 시간에 의해 지수적으로 감소

손실 $loss = -\log{P(a|s)}\times R$
에피소드 전체 표집 (몬테카를로 방식)

→ 환경등의 변수가 작용하는 동작의 직접적인 영향보다도,

그 동작을 시작으로 일어나는 이후 과정 전체로 해당 동작을 평가
복잡한 환경에서 잘 작동하지않는 문제점

심층 Q 신경망

→ 이산적인 동작 공간에 효과적

→ 엡실론 - 탐욕법과 같은 정책이 별도로 필요한점

MDP, 마르코프 결정과정 (마르코프 성질 - 주어진 상태의 동작 선택에 이전 결과는 무관)

경험 재현의 필요성

⇒ 환경의 고유한 분산에 의해 발생하는 온라인 학습 방식의 불안정성 해결

ex) 장기적으로는 좋은 동작이지만, 직접적인 결과가 나쁠 경우

5.1 가치함수와 정책함수의 결합