[스터디파이] 강화학습 단기집중 과정 Course 참여

2020. 5. 7. 20:55AI/RL

728x90

스터디 파이에서 20만원 결제하고 시작한 강화학습 단기집중과정

 

포스코/포스텍 청년 AI/BigData 아카데미 8기에서 강화학습을 배웠었지만, 어려워서 제대로 이해하지 못했던 것이 아쉬워서 다시 공부하려고 신청했다.

 

생각보다 프로그램이 알차서 놀랐다.

 

강사 프로필은 아래와 같다.

< 강사 프로필 >

 

교재는 많은 사람들이 보고, 바이블이라고 불리는 「리처드 써튼」 책이다.

 

< 써튼 책 >

 

총 4주간의 일정으로 진행되며, 매일 학습량이 주어진다. ( 주 1회 공부하는 줄 알았는데 매일이라서 놀라버림 )

 

총 커리큘럼은 다음과 같다.

Day 1
  • 챕터1: 강화학습의 소개를 읽고 다음의 질문에 대한 답변을 Slack에 적습니다 (~27p, 약 40분)

    • 강화학습이란 무엇인가요?

    • 탐험과 활용 문제란 무엇인가요?

    • 정책이란 무엇인가요?

    • 보상 신호란 무엇인가요?

    • 가치 함수란 무엇인가요?

    • 모델이란 무엇인가요?

 

Day 2
  • 챕터2: 다중 선택 문제(Bandit problem) 를 읽고 다음의 질문에 대한 답변을 Slack에 적습니다 (~56p, 약 40분)

    • 다중 선택 문제(bandits problem)이란 무엇인가요?

    • 신뢰 상한 행동 선택(Upper Confidence Bound, UCB) 알고리즘의 공식 암기해서 적어주세요 (식 2.10)

    • 맥락적 다중 선택과 강화학습의 차이점에 대해서 설명해주세요. (p50 참조)

 

Day 3
  • MDP 개념 설명 영상 시청 (약 35분)

  • 챕터3: 유한 마르코프 결정 과정(Markov Decision Process) 을 읽고 다음의 질문에 대한 답변을 Slack에 적습니다 (~87p, 약 1시간)

    • Bellman Expectation Equation 암기: v(s) (식 3.14)

    • Bellman Optimality Equation 암기: v*(s) (식 3.19)

    • Bellman Optimality Equation 암기: q*(s, a) (식 3.20)

 

Day 4
  • 챕터4: 동적 프로그래밍(Dynamic Programming) 을 읽고 다음의 질문에 대한 답변을 Slack에 적습니다 (~110p, 약 1시간)

    • Policy Evaluation에서 v(s) 업데이트 식 암기해서 적어주세요:
      (식 4.4, Bellman Expectation Equation과 동일)

    • Policy Improvement에서 pi(a|s) 업데이트 식 암기해서 적어주세요: (식 4.9)

    • Value Iteration v(s) 업데이트 식 암기해서 적어주세요:
      (식: 4.10, Bellman Optimality Equation 과 동일)

    • 일반화된 정책 반복(Generalized Policy Iteration, GPI)란 무엇인가요?

 

Day 5

 

Day 6
  • 챕터5: 몬테카를로 방법을 읽고 다음의 질문에 대한 답변을 Slack에 적습니다 (~144p, 약 1시간30분)

    • 몬테카를로 예측과 동적 프로그래밍의 차이에 대해 서술해주세요.

    • 활성 정책(On-policy)와 비활성 정책(Off-policy)의 차이에 대해 서술해주세요.

    • 최초 접촉 MC 방법과 모든 접촉 MC 방법의 차이를 서술해주세요

    • 중요도 추출법(Importance Sampling)에 대해 설명해주세요

    • 최초 접촉 MC 예측(first-visit MC method)의 pseudo-code(p113)을 따라서 적어주세요.

 

 

Day 7
  • 챕터6: 시간차 학습을 읽고 다음의 질문에 대한 답변을 Slack에 적습니다 (~170p, 약 1시간30분)

    • 모든 접촉 MC 예측(every-visit MC method)의 업데이트 식을 암기해서 적어주세요 (식 6.1)

    • TD 오차(TD error)의 공식을 암기해서 적어주세요 (식 6.5)

    • TD 학습이 DP 방법에 비해 더 좋은 이유를 설명해주세요. (p151 상단)

    • TD 학습이 MC 방법에 비해 더 좋은 이유를 설명해주세요. (p151 상단)

    • SARSA 학습의 Q함수 업데이트 식을 암기해서 적어주세요. (p158)

    • Q 학습의 Q함수 업데이트 식을 암기해서 적어주세요 (p160)

    • 연습문제 6.11. Q 학습이 비활성 정책(off-policy) 방법으로 고려되는 이유는 무엇입니까?

 

Day 8
  • 챕터7: n-단계 부트스트랩을 읽고 다음 질문에 대한 답변을 Slack에 적습니다. (~190p, 약 40분)

    • n 단계 이득의 공식을 암기해서 적어주세요. (식 7.1)

    • n 단계 TD 업데이트 공식을 암기해서 적어주세요. (식 7.2)

    • n 단계 SARSA 업데이트 공식을 암기해서 적어주세요. (식 7.5)

 

Day 9

 

Day 10