[단단한 강화학습] #1 강화학습 소개

2020. 5. 7. 22:17AI/RL

728x90

강화학습 :

    - 지도학습 및 비지도학습과 더불어 기계학습의 3가지 기본적인 방법론 중 하나이다. 

    - 사람의 도파민 시스템과 비슷하며, 의사결정(MDP)을 최적화 하는 기술을 수학적으로 정의한 것이다.

    - 주어진 불확실한 상황에서 상호작용으로부터 배우는 목표 지향적인 학습에 초점이 맞춰져 있다.

    • 조건 :
         - 행동의 결과는 최대 보상을 가져와야 함

         - 행동은 시행착오를 통해 찾아냄 (경험에 의존)

    • 강화학습의 특징 :

        - 시행착오지연된 보상

        - DP, MDP 의 개념을 활용함 (불확실한 모든 문제를 분명히 고려하고 목표 지향적)
        - 탐험(Exploration) : 미래에 더 좋은 행동을 선택하기 위해 과거에 하지 않았던 행동을 시도

        - 활용(Exploitation) : 과거의 효과적이었던 행동을 선호

       

        ※  idea : 확률문제에서 기대값을 높은 신뢰도로 추정하려면 행동을 여러번 시도해야 함.

        ※ 탐험과 활용은 Trade-off 의 관계에 있다.

 

강화학습의 구성 요소 : 4가지

    - 정책 Policy : 특정 시점에 학습자가 취하는 행동을 정의. 정책→행동 결정 (일반적으로, 확률 base)
                        MDP에서 정책(Policy)=  분포 of Action  (when 상황 given)

    -
보상신호 reward signal : 강화학습이 즉각적으로 성취할 목표를 정의 (일반적으로, stochastic 함수)

    - 가치함수 value function : 시작 시점부터 누적된 보상의 총량, 장기적 관점의 목표
(상태 State와 관련있음)

    -
환경모델 environment model : 환경의 변화를 모사한다. 환경의 Dynamics(동역학)
                                                   모델→계획(planning)에 사용. 다음 상태와 보상을 예측

 

       * 결정을 평가할 때 가장 많이 고려하는 것은 가치다. 장기적으로 최대한 많은 보상을 얻기 위해서이다.

       ** 계획 : 미래의 상황을 경험하기 전에 가능성만을 고려

       ***  model-based 방법 : 모델&계획 을 사용하는 RL

       **** model-free 방법 : 시행착오로 모델을 학습하고, 그 모델을 사용

 

상태 State :

    강화학습에서 정책과 가치의 입력, 동시에 모델의 입/출력이 됨

 

표기법 :

    - 확률 변수 : 대문자 (eg. 상태, 행동, 보상 :  , 가치함수 추정값 :  )

    - 실현된 변수 값 : 소문자 (eg. 변수 값 :  , 가치함수 : )

 


상태 S_t 추정값의 갱신

 

alpha : 시간 간격 파라미터. 학습속도에 영향을 준다. (시간차 학습의 일종)

V(S_t) : S_t의 추정값

식에 대한 내용은 뒤에서 자세히 다룬다.

 

• 강화학습의 초기역사 :

  - 19세기 초 : 해밀턴, 쟈코비 이론

  - 1950년대 후반 : 리처드 벨만의 최적제어. 벨만방정식, DP.

  - Stochastic MDP

  - 1960년대 : MDP의 Policy Iteration