ch.05 행위자 - 비평자 모형

Remind

REINFORCE

심층 Q 신경망

→ 이산적인 동작 공간에 효과적

→ 엡실론 - 탐욕법과 같은 정책이 별도로 필요한점

5.1 가치함수와 정책함수의 결합