본문 바로가기

Backup/David Silver RL course

[강화학습 4강] Model Free Prediction 이번 강의에서는 model free는 environment를 어떻게 동작하는지를 모를때 prediction = value를 학습, control = policy를 찾는거. unknown mdp에 대해서 value function을 찾는거 따라서 model free prediction에서는 policy가 정해져 있을때 끝날때 return을 예측하는 방법론을 배울것이다. model을 모를때 prediction을 하는 방법에 2가지가 있는데, 하나는 Monte-Carlo, TD이다. Monte carlo는 직접 구하기 어려운걸 emperical하게 구하는 것이다. 계속 실험하면서 나오는 실제값들 가지고 추정하는 방법이다. value function은 어떤 state에서의 return이 있을텐데 policy에 .. 더보기
[강화학습 2강] Markov Decision Process 이번 강의에서는 위와 같은 순서로 진행되고 Extensions to MDPs는 Silver강의에서도 다루지 않았다. mdp는 environemnt를 표현하는 방법이다. 모든 강화학습 문제는 mdp로 만들수 있다. markov property는 다음과 같은 성질을 가지고있다. state가 중요하고 history는 필요없다. state만으로도 미래를 예측하는데 충분한 정보가 있다. state transition Matrix는 t state에서 t+1시점의 각 state로 전이될 확률 simulation을 계속하다보면 transition 확률이 수렴되게 된다. 위와 같이 markov process에서 각 episode가 수행될수있고, 당연히 이 환경이 주어진다면 sampling할수있다. 이런 process를 .. 더보기
[강화학습 9강] Exploration and Exploitation Expoloitation 과 expoloration은 trade off관계임. 알고있는걸 계속 연구하는건 expolotation, 근데 우리가 원하는 agent를 만들기 위해선 exploration도 해야됨. 예를 들어 새로운 식당에 가는건 exploration, 갔던 식당에 가는건 explotation. 롤에서 했던 캐릭터만하는거는 explotation, 새로운 포지션을 하는건 exploration. 강화학습에서 많이 마딱뜨리는 문제이다. 이런 exploration explotation 문제를 다뤄야 하는 방법론들은 다음과 같다. 이제 개념설명을 위해 Multi-armed bandit을 문제환경을 알아야 한다. mdp보다 간단한거. 슬롯머신마다 reward의 확률분포가 따로 있다. -> one step.. 더보기
[강화학습 1강] 강화학습 introduction David Silver 교집합이 기계학습이 아니라 저 모든것을 포함하는 더 큰 범위가 기계학습니다. 강화학습은 지도학습처럼 정답이 없지만 행동을 했을때 보상이 있다. 이 방법론의 경우 지도자 없이 스스로 Optimal을 찾고자 하기에 사람을 뛰어넘는 결과에 도달할 가능성이 있다. supervised같은경우 iid(독립적인 샘플), 강화학습 같은경우 sequential data을 이용하기 때문에 더 어렵다. reward는 강화학습의 전부: 한 시간때의 숫자(scalar) 하나이다. 강화학습은 목적은 cumulative reward를 최대화 하는것이라 할수있다. 중요한것은 Sequantial하게 행동을 잘해야됨 목적은 미래에 받을 reward의 총합을 최대화하는 액션을 선택하는것 계속 greedy하게 하면 .. 더보기