[단단한 강화학습] #1 강화학습 소개

[단단한 강화학습] #1 강화학습 소개

2020. 5. 7. 22:17ㆍAI/RL

728x90

• 강화학습 :

- 지도학습 및 비지도학습과 더불어 기계학습의 3가지 기본적인 방법론 중 하나이다.

- 사람의 도파민 시스템과 비슷하며, 의사결정(MDP)을 최적화 하는 기술을 수학적으로 정의한 것이다.

- 주어진 불확실한 상황에서 상호작용으로부터 배우는 목표 지향적인 학습에 초점이 맞춰져 있다.

조건 :
- 행동의 결과는 최대 보상을 가져와야 함
- 행동은 시행착오를 통해 찾아냄 (경험에 의존)
강화학습의 특징 :

- 시행착오와 지연된 보상

- DP, MDP 의 개념을 활용함 (불확실한 모든 문제를 분명히 고려하고 목표 지향적)
- 탐험(Exploration) : 미래에 더 좋은 행동을 선택하기 위해 과거에 하지 않았던 행동을 시도

- 활용(Exploitation) : 과거의 효과적이었던 행동을 선호

※ idea : 확률문제에서 기대값을 높은 신뢰도로 추정하려면 행동을 여러번 시도해야 함.
※ 탐험과 활용은 Trade-off 의 관계에 있다.

• 강화학습의 구성 요소 : 4가지

- 정책 Policy : 특정 시점에 학습자가 취하는 행동을 정의. 정책→행동 결정 (일반적으로, 확률 base)
MDP에서 정책(Policy)= 분포 of Action (when 상황 given)

- 보상신호 reward signal : 강화학습이 즉각적으로 성취할 목표를 정의 (일반적으로, stochastic 함수)

- 가치함수 value function : 시작 시점부터 누적된 보상의 총량, 장기적 관점의 목표 (상태 State와 관련있음)

- 환경모델 environment model : 환경의 변화를 모사한다. 환경의 Dynamics(동역학)
모델→계획(planning)에 사용. 다음 상태와 보상을 예측

* 결정을 평가할 때 가장 많이 고려하는 것은 가치다. 장기적으로 최대한 많은 보상을 얻기 위해서이다.

** 계획 : 미래의 상황을 경험하기 전에 가능성만을 고려

*** model-based 방법 : 모델&계획 을 사용하는 RL

**** model-free 방법 : 시행착오로 모델을 학습하고, 그 모델을 사용

• 상태 State :

강화학습에서 정책과 가치의 입력, 동시에 모델의 입/출력이 됨

표기법 :

- 확률 변수 : 대문자 (eg. 상태, 행동, 보상 : $S_t, A_t, R_t$ , 가치함수 추정값 : $Q_t(s,a)$ )

- 실현된 변수 값 : 소문자 (eg. 변수 값 : $s,a,r$ , 가치함수 : $v_\pi$ )

• 상태 S_t 추정값의 갱신

$V(S_t) \leftarrow V(S_t) + \alpha [V(S_t_+_1)-V(S_t)]$

alpha : 시간 간격 파라미터. 학습속도에 영향을 준다. (시간차 학습의 일종)

V(S_t) : S_t의 추정값

식에 대한 내용은 뒤에서 자세히 다룬다.

• 강화학습의 초기역사 :

- 19세기 초 : 해밀턴, 쟈코비 이론

- 1950년대 후반 : 리처드 벨만의 최적제어. 벨만방정식, DP.

- Stochastic MDP

- 1960년대 : MDP의 Policy Iteration

'AI > RL' 카테고리의 다른 글

[단단한 강화학습] #2 다중선택(Multi-armed Bandits) (2)	2020.05.09
[스터디파이] 강화학습 단기집중 과정 Course 참여 (1)	2020.05.07

어쩌다개발 임베디드, 정보보안, 인공지능에 대해 다룹니다.

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

어쩌다개발

Neighbors

어쩌다개발

태그

최근글

댓글

공지사항

아카이브

'AI > RL' 카테고리의 다른 글

관련글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역