모든 가능성의 탐색: 분포 심층 Q 신경망

Motivation

분포 Q 학습

— Q-학습: 어떤 동작의 가치를 하나의 수치로 평가 (점 추정)

⇒ 모든 동작의 가치를 확률 분포로 평가하도록 확장해보자

기대값 Q 학습

— 환경의 무작위성 덕분에 보상에는 노이즈가 존재한다.

기존 Q 학습에서는 노이즈가 존재하는 보상들의 평균을 학습하므로 기대값 Q 학습으로 칭한다.

그러나 평균을 취하면 → 환경에 대한 정보가 사라짐.

Ex) 똑같은 행동을 했을 때, 얻는 보상이 -5, 5로 달랐을때,

보상은 단순히 어떤 수치 주변에 형성되는 것 이상의 복잡한 패턴이 존재할 수 있지만 평균을 내면 0으로, 보상의 복잡한 특성을 충분히 나타내지 못한다.

⇒ 따라서 분포 Q 학습에서는 관측된 보상들의 분포를 사용해서 보상의 특성을 더 많이 반영하려한다.