목록전체 글 (159)
Priceless
4-1. PPO 알고리즘PPO 알고리즘이란2017년 OpenAI 팀이 발표한 논문에서 소개된최신 알고리즘 기법 구현하는 것에 비해 성능이 뛰어나다 PPO 알고리즘은 로봇 제어, 게임 등 다양한 강화 학습과 제어에서 우수한 결과가 나타났다 정책 경사정책 경사는 정책 반복법에 기초한다가치 반복법에 기초하는 Q함수와 다르다 특정 상태에서 취하는 행동의 확률 분포로 이루어진 정책 네트워크를 학습시킨다상태를 입력으로 하고 출력은 행동의 확률 분포이다 정책 경사의 장점1. 정책 경사는 출력인 확률 분포를 정규 분포라 가정하고 샘플링을 진행하면 에이전트의 연속된 행동을 추출할 수 있다DQN은 에이전트가 취할 수 있는 행동이 불연속한 경우에만 적용할 수 있다2. 정책 네트워크는 확률 분포를 기반으로 해서 행동을 선택하..
3-1. 게임을 스스로 플레이하는 에이전트 만들기강화 학습을 게임 환경에서 공부하는 이유현실에서는 환경 통제가 거의 불가능하다게임 환경을 통해 에이전트, 환경, 보상을 통제하도록 한다 OpenAI Gym 레트로를 위한 환경 준비(환경 설정 문제로 추후 수정)OS에 맞는 conda 환경을 설정한다 Ubuntu Not windows 준비가 되었으면git clone environment.yml에서 channels and dependencies를 수정한다가상환경이 생성된 이후 GL에서 문제가 발생하는데구글링 해본 결과 pyglet 1.5.11 버전으로 해결한다고 하여pyglet 버전도 수정한다 name: rl-gym-retrochannels: - defaultsdependencies: - ca-certif..
2-1. 딥러닝 복습다른 자료 참고 2-2. DQN(Deep Q Network) 공부하기Q학습 복기Q학습은 상태 s와 행동 a에 대한 행동 가치 함수 Q(s,a)를 학습한다s와 a를 무작위로 선택하여 행동 a의 결과로 변한 상태 s'에서 행동 a'에 대한 행동 가치 함수의 값을 Q(s,a)에 대입하여 학습 진행 DQN의 구조상태(게임 화면)을 입력층으로 넣고마지막 분류 단계에서는 에이전트가 취할 수 있는 행동에 해당하는 노드를 출력층에 배치각 노드의 출력은 입력 화면s와 해당 노드의 행동 a에 해당하는 Q함수의 값인 Q(s,a)이다 이렇게 구성한 네트워크를 학습시키면 모든 종류의 입력에 따른 각 행동의 Q 함수의 값을 구할 수 있다 DQN 학습 순서1. Q(s,a) 무작위로 초기화s와 a에 대한 테이블이..