본문 바로가기

스터디/딥러닝12

핸즈온 머신러닝(Hands-On Machine Learning) 18장 - 강화학습(3) 18.8 시간차(Temporal Difference) 학습 독립적인 행동으로 이루어진 강화학습 문제는 보통 마르코프 결정 과정으로 모델링될 수 있지만 학습 초기에 에이전트는 전이 확률( T(s,a,s') )에 대해 알지 못하며, 보상( R(s,a,s') )이 얼마나 되는지 알지 못한다. 그렇기 때문에, 보상에 대해 알기 위해서는 적어도 한번씩은 각 상태(state)와 전이를 경험해야 하며, 전이 확률에 대해 신뢰할만한 추정을 얻기 위해서는 여러번 경험을 해야한다. 시간차 학습(TD 학습, Temporal Difference Learning)은 가치 반복(Value-iteration) 알고리즘과 비슷하지만, 1. 에이전트가 MDP에 대해 일부의 정보만 알고 있을 때 다룰 수 있도록 변형한 것 2. 일반적으.. 2021. 10. 31.
핸즈온 머신러닝(Hands-On Machine Learning) 18장 - 강화학습(2) 18.6 정책 그래디언트 (PG, Policy Gradient) 정책 탐색에서 간단하게 살펴 보았듯이 정책 그래디언트(PG)는 높은 보상을 얻는 방향의 그래디언트로 정책(policy)의 파라미터를 최적화하는 알고리즘이다. PG 알고리즘 중 인기있는 알고리즘은 1992년 로날드 윌리엄스(Ronald Williams)가 제안한 REINFORCE 알고리즘이다. REINFORCE의 방법은 다음과 같다. 신경망 정책이 여러 번에 걸쳐 게임을 플레이하고 매 스텝마다 선택된 행동이 더 높은 가능성을 가지도록 만드는 그래디언트를 계산한다. 몇 번의 에피소드를 실행한 다음, 각 행동의 점수를 계산한다. 한 행동 점수가 양수이면 선택될 가능성이 높도록 1번에서 계산한 그래디언트를 적용한다. 만약, 음수일 경우 덜 선택 되.. 2021. 10. 30.
핸즈온 머신러닝(Hands-On Machine Learning) 18장 - 강화학습(1) 18. 강화학습 (Reinforcement Learning) 18.1 보상을 최적화하기 위한 학습 강화학습에서 소프트웨어 에이전트(agent)는 관측(observation)을 하고 주어진 환경(environment)에서 행동(action)한다. 그리고 그 결과로 보상(reward)을 받는다. 에이전트의 목적은 보상의 장기간(long-term) 기대치를 최대로 만드는 행동을 학습하는 것이다. 즉, 에이전트는 환경 안에서 행동하고 시행착오를 통해 보상이 최대가 되도록 학습한다. 이러한 강화학습의 정의는 다음과 같이 다양한 문제에 적용할 수 있다. a : 보행 로봇(walking robot)에서는 에이전트(agent)는 보행 로봇을 제어하는 프로그램일 수 있다. 이때 환경(environment)은 실제 세상이.. 2021. 10. 28.
핸즈온 머신러닝(Hands-On Machine Learning) 10장 - 케라스를 사용한 인공 신경망 (2)-1 10.2 케라스로 다층 퍼셉트론 구현하기 10.2.2 시퀀셜 API를 사용하여 이미지 분류기 만들기 import tensorflow as tf from tensorflow import keras 먼저 MNIST 데이터셋을 로드 케라스는 keras.datasets에 널리 사용하는 데이터셋을 로드하기 위한 함수를 제공한다. 이 데이터셋은 이미 훈련 세트와 테스트 세트로 나누어져 있어 훈련 세트를 더 나누어 검증 세트를 만드는 것이 좋다. fashion_mnist = keras.datasets.fashion_mnist (X_train_full, y_train_full), (X_test, y_test) = fashion_mnist.load_data() 전체 훈련 세트를 검증 세트와 (조금 더 작은) 훈련 세트로.. 2021. 10. 27.
핸즈온 머신러닝(Hands-On Machine Learning) 10장 - 케라스를 사용한 인공 신경망 (1) 10. 인공 신경망 (Artificial Neural Networks) 뇌에 있는 생물학적 뉴런의 네트워크에서 영감을 받은 머신러닝 모델이다. 2000년 대에 들어서면서 인공 신경망은 2012년 ILSVRC2012 대회에서 인공 신경망을 깊게 쌓은 딥러닝 모델인 AlexNet이 압도적인 성적으로 우승하면서 다시금 주목받게 되었다. 이렇게 인공 신경망(딥러닝)이 다시 주목받게 된 계기는 다음과 같은 것들이 있다. 빅 데이터 시대인 요즘 신경망을 학습시키기 위한 데이터가 엄청나게 많아 졌다. 신경망은 다른 머신러닝 알고리즘보다 규모가 크고 복잡한 문제에서 성능이 좋다. 1990년대 이후 크게 발전된 컴퓨터 하드웨어 성능과 Matrix연산에 고성능인 GPU로 인해 상대적으로 짧은 시간 안에 대규모의 신경망을 .. 2021. 10. 25.
핸즈온 머신러닝 2판 스터디 (딥러닝 파트) 8월부터 시작한 인공지능 스터디 4명이 돌아가면서 한 챕터씩 내용 정리해서 발표하기로 했다. 시작은 8월이었지만 블로그에 정리하는 걸 미루다 보니 벌써 10월 말.. 지금부터라도 차근차근 내가 공부했던 내용을 정리해야겠다. 나는 딥러닝 파트의 짝수 챕터를 맡아서 발표했지만 딥러닝 모든 파트를 공부하는 게 목적이기 때문에 블로그에는 모든 내용을 정리할 예정이다. https://github.com/rickiepark rickiepark - Overview Just a humble learner :-D. rickiepark has 66 repositories available. Follow their code on GitHub. github.com 처음에는 깃허브 코드를 보면서 설명하는 식으로 발표를 했는데 .. 2021. 10. 25.