Ch.01 강화학습이란?

01-1 제어 과제 Control Task

CNN, MLP를 통한 이미지 분류기

밑바닥부터 시작하는 딥러닝 1권을 공부하며 완성한 두 신경망은, 주어진 이미지를 통해서 그 이미지의 레이블을 예측하는 이미지 분류기였다.

image.png

이제 여기서 더 나아가 분류한 이미지를 토대로, 어떤 행동을 할 것인지를 결정할 것이다.

image.png

주어진 조건에서 어떤 동작을 할 것인지 결정하는 문제를 Control task, 제어 과제라고 한다.

01-2 강화 학습

image.png

강화 학습, Reinforcement Learning 은 위에서 설명한 제어과제를 표현하고, 해결하기 위한 방법론이다.

방법론이니 만큼, 세부적인 알고리즘은 문제에 따라 다양하며, 이 중 심층 신경망을 사용하는 강화 학습을 심층 강화 학습으로 명명하고 있다.

비지도 학습 은 강화 학습의 두드러지는 특징이다. 이미지 분류 모델의 경우, 이미지와 함께 정답 레이블을 부여하여 학습과정을 거쳤다. 강화 학습 알고리즘은 각 단계의 정답을 부여하기보다, 각 단계에서의 보상과 벌점을 부여한다.

그렇다면 우리는 보상을 최대화 하도록 알고리즘을 설계하면 될 것이다는 것을 쉽게 생각해볼 수 있다.