본문 바로가기

hands-on Machine Learning2

핸즈온 머신러닝(Hands-On Machine Learning) 18장 - 강화학습(3) 18.8 시간차(Temporal Difference) 학습 독립적인 행동으로 이루어진 강화학습 문제는 보통 마르코프 결정 과정으로 모델링될 수 있지만 학습 초기에 에이전트는 전이 확률( T(s,a,s') )에 대해 알지 못하며, 보상( R(s,a,s') )이 얼마나 되는지 알지 못한다. 그렇기 때문에, 보상에 대해 알기 위해서는 적어도 한번씩은 각 상태(state)와 전이를 경험해야 하며, 전이 확률에 대해 신뢰할만한 추정을 얻기 위해서는 여러번 경험을 해야한다. 시간차 학습(TD 학습, Temporal Difference Learning)은 가치 반복(Value-iteration) 알고리즘과 비슷하지만, 1. 에이전트가 MDP에 대해 일부의 정보만 알고 있을 때 다룰 수 있도록 변형한 것 2. 일반적으.. 2021. 10. 31.
핸즈온 머신러닝 2판 스터디 (딥러닝 파트) 8월부터 시작한 인공지능 스터디 4명이 돌아가면서 한 챕터씩 내용 정리해서 발표하기로 했다. 시작은 8월이었지만 블로그에 정리하는 걸 미루다 보니 벌써 10월 말.. 지금부터라도 차근차근 내가 공부했던 내용을 정리해야겠다. 나는 딥러닝 파트의 짝수 챕터를 맡아서 발표했지만 딥러닝 모든 파트를 공부하는 게 목적이기 때문에 블로그에는 모든 내용을 정리할 예정이다. https://github.com/rickiepark rickiepark - Overview Just a humble learner :-D. rickiepark has 66 repositories available. Follow their code on GitHub. github.com 처음에는 깃허브 코드를 보면서 설명하는 식으로 발표를 했는데 .. 2021. 10. 25.