핸즈온 머신러닝3 핸즈온 머신러닝(Hands-On Machine Learning) 18장 - 강화학습(3) 18.8 시간차(Temporal Difference) 학습 독립적인 행동으로 이루어진 강화학습 문제는 보통 마르코프 결정 과정으로 모델링될 수 있지만 학습 초기에 에이전트는 전이 확률( T(s,a,s') )에 대해 알지 못하며, 보상( R(s,a,s') )이 얼마나 되는지 알지 못한다. 그렇기 때문에, 보상에 대해 알기 위해서는 적어도 한번씩은 각 상태(state)와 전이를 경험해야 하며, 전이 확률에 대해 신뢰할만한 추정을 얻기 위해서는 여러번 경험을 해야한다. 시간차 학습(TD 학습, Temporal Difference Learning)은 가치 반복(Value-iteration) 알고리즘과 비슷하지만, 1. 에이전트가 MDP에 대해 일부의 정보만 알고 있을 때 다룰 수 있도록 변형한 것 2. 일반적으.. 2021. 10. 31. 핸즈온 머신러닝(Hands-On Machine Learning) 10장 - 케라스를 사용한 인공 신경망 (1) 10. 인공 신경망 (Artificial Neural Networks) 뇌에 있는 생물학적 뉴런의 네트워크에서 영감을 받은 머신러닝 모델이다. 2000년 대에 들어서면서 인공 신경망은 2012년 ILSVRC2012 대회에서 인공 신경망을 깊게 쌓은 딥러닝 모델인 AlexNet이 압도적인 성적으로 우승하면서 다시금 주목받게 되었다. 이렇게 인공 신경망(딥러닝)이 다시 주목받게 된 계기는 다음과 같은 것들이 있다. 빅 데이터 시대인 요즘 신경망을 학습시키기 위한 데이터가 엄청나게 많아 졌다. 신경망은 다른 머신러닝 알고리즘보다 규모가 크고 복잡한 문제에서 성능이 좋다. 1990년대 이후 크게 발전된 컴퓨터 하드웨어 성능과 Matrix연산에 고성능인 GPU로 인해 상대적으로 짧은 시간 안에 대규모의 신경망을 .. 2021. 10. 25. 핸즈온 머신러닝 2판 스터디 (딥러닝 파트) 8월부터 시작한 인공지능 스터디 4명이 돌아가면서 한 챕터씩 내용 정리해서 발표하기로 했다. 시작은 8월이었지만 블로그에 정리하는 걸 미루다 보니 벌써 10월 말.. 지금부터라도 차근차근 내가 공부했던 내용을 정리해야겠다. 나는 딥러닝 파트의 짝수 챕터를 맡아서 발표했지만 딥러닝 모든 파트를 공부하는 게 목적이기 때문에 블로그에는 모든 내용을 정리할 예정이다. https://github.com/rickiepark rickiepark - Overview Just a humble learner :-D. rickiepark has 66 repositories available. Follow their code on GitHub. github.com 처음에는 깃허브 코드를 보면서 설명하는 식으로 발표를 했는데 .. 2021. 10. 25. 이전 1 다음