상태를 입력받아 가능한 모든 동작을 선택할 확률을 출력하는 정책망을 이용
하나의 에피소드를 끝낸 후, 얻은 보상들로 학습하는 일화적(Episodic) 알고리즘
수익 $R = \sum{\gamma_t}{r_t}$
할인계수 — 시간에 의해 지수적으로 감소
손실 $loss = -\log{P(a|s)}\times R$
에피소드 전체 표집 (몬테카를로 방식)
→ 환경등의 변수가 작용하는 동작의 직접적인 영향보다도,
그 동작을 시작으로 일어나는 이후 과정 전체로 해당 동작을 평가
복잡한 환경에서 잘 작동하지않는 문제점
→ 이산적인 동작 공간에 효과적
→ 엡실론 - 탐욕법과 같은 정책이 별도로 필요한점
MDP, 마르코프 결정과정 (마르코프 성질 - 주어진 상태의 동작 선택에 이전 결과는 무관)
경험 재현의 필요성
⇒ 환경의 고유한 분산에 의해 발생하는 온라인 학습 방식의 불안정성 해결
ex) 장기적으로는 좋은 동작이지만, 직접적인 결과가 나쁠 경우