목록AI/RL (6)
Priceless
6-1. 분산 학습 기초분산 학습의 필요성학습해야 할 데이터의 양이 너무 많아졌다 분산 학습 환경분산 학습은 분산 컴퓨팅을 기반으로 한다분산 컴퓨팅은 여러 컴퓨터를 연결하여 문제를 빠르게 해결하는 방법이다 분산 학습 환경의 큰 축은 클러스터 컴퓨팅과 클라우드 컴퓨팅, 멀티스레드와 멀티코어, 하드웨어 가속기로 총 3가지이다클러스터 컴퓨팅과 클라우드 컴퓨팅은 컴퓨터를 여러 대 연결하여 컴퓨팅 자원을 늘린다멀티스레드와 멀티코어는 한 번에 여러 작업을 진행하도록 한다하드웨어 가속기: GPU, TPU 등 클러스터 컴퓨팅은 컴퓨터 여러 대를 하나의 그룹으로 묶어 연산력을 높이는 컴퓨팅 환경이다클러스터 컴퓨팅은 원하는 자원을 주문하고 바로 사용하며, 사용한만큼 지불하는 유연한 컴퓨팅 환경이다 멀티스레드는 한 CPU ..
5-1. 자연어 처리가 뭐죠?컴퓨터는 사람의 언어를 어떻게 표현할까?자연어: 사람이 사용하는 언어기계어: 컴퓨터가 사용하는 언어 비트로 표현하는 자연어컴퓨터가 표현하는 2진수를 비트(bit)라 한다영어는 알파벳 하나씩 나열하므로 비트로 나타내기 편하다한글은 2진수로 나타내기에는 경우의 수가 매우 많아 담기 어렵다예) a: 10000001, 삵: ...? 그래서 우선 영어 기준으로 설명한다 'A'를 10000001, 'B'를 10000010과 같이자연어를 기계어로 변환하는 과정을 문자 인코딩이라 한다기계어를 자연어로 바꾸는 과정을 문자 디코딩이라 한다 문자 인코딩 방식아스키 코드가 대표적유니코드 2.0은 한글도 표현할 수 있다 5-2. 자연어 처리 기법정형 데이터컴퓨터가 이해하기 위한 정형 데이터비정형 데..
4-1. PPO 알고리즘PPO 알고리즘이란2017년 OpenAI 팀이 발표한 논문에서 소개된최신 알고리즘 기법 구현하는 것에 비해 성능이 뛰어나다 PPO 알고리즘은 로봇 제어, 게임 등 다양한 강화 학습과 제어에서 우수한 결과가 나타났다 정책 경사정책 경사는 정책 반복법에 기초한다가치 반복법에 기초하는 Q함수와 다르다 특정 상태에서 취하는 행동의 확률 분포로 이루어진 정책 네트워크를 학습시킨다상태를 입력으로 하고 출력은 행동의 확률 분포이다 정책 경사의 장점1. 정책 경사는 출력인 확률 분포를 정규 분포라 가정하고 샘플링을 진행하면 에이전트의 연속된 행동을 추출할 수 있다DQN은 에이전트가 취할 수 있는 행동이 불연속한 경우에만 적용할 수 있다2. 정책 네트워크는 확률 분포를 기반으로 해서 행동을 선택하..
3-1. 게임을 스스로 플레이하는 에이전트 만들기강화 학습을 게임 환경에서 공부하는 이유현실에서는 환경 통제가 거의 불가능하다게임 환경을 통해 에이전트, 환경, 보상을 통제하도록 한다 OpenAI Gym 레트로를 위한 환경 준비(환경 설정 문제로 추후 수정)OS에 맞는 conda 환경을 설정한다 Ubuntu Not windows 준비가 되었으면git clone environment.yml에서 channels and dependencies를 수정한다가상환경이 생성된 이후 GL에서 문제가 발생하는데구글링 해본 결과 pyglet 1.5.11 버전으로 해결한다고 하여pyglet 버전도 수정한다 name: rl-gym-retrochannels: - defaultsdependencies: - ca-certif..
2-1. 딥러닝 복습다른 자료 참고 2-2. DQN(Deep Q Network) 공부하기Q학습 복기Q학습은 상태 s와 행동 a에 대한 행동 가치 함수 Q(s,a)를 학습한다s와 a를 무작위로 선택하여 행동 a의 결과로 변한 상태 s'에서 행동 a'에 대한 행동 가치 함수의 값을 Q(s,a)에 대입하여 학습 진행 DQN의 구조상태(게임 화면)을 입력층으로 넣고마지막 분류 단계에서는 에이전트가 취할 수 있는 행동에 해당하는 노드를 출력층에 배치각 노드의 출력은 입력 화면s와 해당 노드의 행동 a에 해당하는 Q함수의 값인 Q(s,a)이다 이렇게 구성한 네트워크를 학습시키면 모든 종류의 입력에 따른 각 행동의 Q 함수의 값을 구할 수 있다 DQN 학습 순서1. Q(s,a) 무작위로 초기화s와 a에 대한 테이블이..
1-1. 강화 학습 멀리서 훑어보기머신러닝 내의 학습지도학습이란데이터와 각 데이터에 대한 레이블이 주어졌을 때 새로운 데이터에 대한 레이블을 매기는 방법을 학습하는 것 비지도학습이란레이블 없이 주어진 데이터에 대해 데이터를 분류하거나 밀도를 추청하는 방법을 학습하는 것 강화학습이란상태에 따른 행동에 대한 보상으로 상태에 대한 행동을 찾는 것 의사 결정을 위한 강화 학습강화학습은 의사 결정을 위한 인공지능 방법론이다. 다르게 말하면 강화 학습을 제대로 구현하기 위해서 사람의 의사 결정이 어떻게 이루어지는지 이해해야 한다. 1-2. 마르코프 결정 과정(MDP, Markov Decision Process)MDP 정의상태(state, s1): 에이전트가 환경 내 특정 시점에 관찰할 수 있는 것을 수치화행동(a..