본문 바로가기

Matplotlib Matplotlib을 사용하는 방법(interface)이 두가지가 있다: 1. pyplot : state based interface 2. Object oriented interface -> 이것만 마스터하자 다은과 같은 순서로 시각화 작업 수행: 2.1. figure and axes Figure와 Axes를 동시에 생성하는데 Figure는 캔바스 자체, Axes는 그림의 여러 부분을 담고 있습니다. background color, grid color 등은 plt.style.use()를 사용하면 설정이 용이합니다. fontsize, linewidth 등은 seaborn의 seaborn.set_context()를 사용하면 좋습니다. 그림의 크기를 함께 바꿔봅시다. plt.subplots() 안에 figsi.. 더보기
[강화학습 5강] Model Free Control 본격적으로 policy를 찾는거를 배워보자 * on policy는 학습하는 policy와 실제 environment에서 경험을 쌓는 policy가 같을때 -> MC를 이용한 learning과 TD를 이용한 learning 지난 시간엔 unknown MDP를 측정하는 법에 대해 배운 model free control이 어디서 쓰이는지에 대한 예 policy가 두개있다 하나는 내가 최적화 하고자하는 policy, 다른 하나는 behavior policy(environment에서 경험을 쌓는 policy) 이 두가지가 같으면 on-policy, 다르면 off-policy policy iteration은 결국에 (control)최적의 value function을 찾는 방법론 policy가 있을때 policy를 .. 더보기
[강화학습 4강] Model Free Prediction 이번 강의에서는 model free는 environment를 어떻게 동작하는지를 모를때 prediction = value를 학습, control = policy를 찾는거. unknown mdp에 대해서 value function을 찾는거 따라서 model free prediction에서는 policy가 정해져 있을때 끝날때 return을 예측하는 방법론을 배울것이다. model을 모를때 prediction을 하는 방법에 2가지가 있는데, 하나는 Monte-Carlo, TD이다. Monte carlo는 직접 구하기 어려운걸 emperical하게 구하는 것이다. 계속 실험하면서 나오는 실제값들 가지고 추정하는 방법이다. value function은 어떤 state에서의 return이 있을텐데 policy에 .. 더보기