AI/RL(3)
-
[단단한 강화학습] #2 다중선택(Multi-armed Bandits)
Chapt 2의 제목 멀티 암드 밴딧(Multi-armed Bandits, MAB) MAB 이전에 먼저 Bandit 문제가 어떤 문제인지 알아보자. Bandit Problem(선택문제) : 오직 하나의 상태만 다루는 강화학습 문제 MAB는 강화학습으로 분류되지 않지만 강화학습의 특징에 해당하는 탐색과 활용(Exploration & Exploitation) 을 다루고 있는다는 점에서 소개한다. 강화학습은 다른 학습 방법(ML,DL)과 다르게 "이렇게 해야한다" 알려주는것(instruct, 지침)이 아니고 자신이 경험해보고 평가하면서 뭐가 좋은지 아는 방식(Evalutation, 평가)이다. 이를 위해서는 직접적인 탐색이 필요하다. 먼저 MAB의 역사를 통해 MAB가 어떤 컨셉을 가지고 있는지 알아보자. M..
2020.05.09 -
[단단한 강화학습] #1 강화학습 소개
• 강화학습 : - 지도학습 및 비지도학습과 더불어 기계학습의 3가지 기본적인 방법론 중 하나이다. - 사람의 도파민 시스템과 비슷하며, 의사결정(MDP)을 최적화 하는 기술을 수학적으로 정의한 것이다. - 주어진 불확실한 상황에서 상호작용으로부터 배우는 목표 지향적인 학습에 초점이 맞춰져 있다. 조건 : - 행동의 결과는 최대 보상을 가져와야 함 - 행동은 시행착오를 통해 찾아냄 (경험에 의존) 강화학습의 특징 : - 시행착오와 지연된 보상 - DP, MDP 의 개념을 활용함 (불확실한 모든 문제를 분명히 고려하고 목표 지향적) - 탐험(Exploration) : 미래에 더 좋은 행동을 선택하기 위해 과거에 하지 않았던 행동을 시도 - 활용(Exploitation) : 과거의 효과적이었던 행동을 선호 ..
2020.05.07 -
[스터디파이] 강화학습 단기집중 과정 Course 참여
스터디 파이에서 20만원 결제하고 시작한 강화학습 단기집중과정 포스코/포스텍 청년 AI/BigData 아카데미 8기에서 강화학습을 배웠었지만, 어려워서 제대로 이해하지 못했던 것이 아쉬워서 다시 공부하려고 신청했다. 생각보다 프로그램이 알차서 놀랐다. 강사 프로필은 아래와 같다. 교재는 많은 사람들이 보고, 바이블이라고 불리는 「리처드 써튼」 책이다. 총 4주간의 일정으로 진행되며, 매일 학습량이 주어진다. ( 주 1회 공부하는 줄 알았는데 매일이라서 놀라버림 ) 총 커리큘럼은 다음과 같다. Day 1 챕터1: 강화학습의 소개를 읽고 다음의 질문에 대한 답변을 Slack에 적습니다 (~27p, 약 40분) 강화학습이란 무엇인가요? 탐험과 활용 문제란 무엇인가요? 정책이란 무엇인가요? 보상 신호란 무엇인가..
2020.05.07