목록AI (12)
Priceless
6-1. 분산 학습 기초분산 학습의 필요성학습해야 할 데이터의 양이 너무 많아졌다 분산 학습 환경분산 학습은 분산 컴퓨팅을 기반으로 한다분산 컴퓨팅은 여러 컴퓨터를 연결하여 문제를 빠르게 해결하는 방법이다 분산 학습 환경의 큰 축은 클러스터 컴퓨팅과 클라우드 컴퓨팅, 멀티스레드와 멀티코어, 하드웨어 가속기로 총 3가지이다클러스터 컴퓨팅과 클라우드 컴퓨팅은 컴퓨터를 여러 대 연결하여 컴퓨팅 자원을 늘린다멀티스레드와 멀티코어는 한 번에 여러 작업을 진행하도록 한다하드웨어 가속기: GPU, TPU 등 클러스터 컴퓨팅은 컴퓨터 여러 대를 하나의 그룹으로 묶어 연산력을 높이는 컴퓨팅 환경이다클러스터 컴퓨팅은 원하는 자원을 주문하고 바로 사용하며, 사용한만큼 지불하는 유연한 컴퓨팅 환경이다 멀티스레드는 한 CPU ..
5-1. 자연어 처리가 뭐죠?컴퓨터는 사람의 언어를 어떻게 표현할까?자연어: 사람이 사용하는 언어기계어: 컴퓨터가 사용하는 언어 비트로 표현하는 자연어컴퓨터가 표현하는 2진수를 비트(bit)라 한다영어는 알파벳 하나씩 나열하므로 비트로 나타내기 편하다한글은 2진수로 나타내기에는 경우의 수가 매우 많아 담기 어렵다예) a: 10000001, 삵: ...? 그래서 우선 영어 기준으로 설명한다 'A'를 10000001, 'B'를 10000010과 같이자연어를 기계어로 변환하는 과정을 문자 인코딩이라 한다기계어를 자연어로 바꾸는 과정을 문자 디코딩이라 한다 문자 인코딩 방식아스키 코드가 대표적유니코드 2.0은 한글도 표현할 수 있다 5-2. 자연어 처리 기법정형 데이터컴퓨터가 이해하기 위한 정형 데이터비정형 데..
4-1. PPO 알고리즘PPO 알고리즘이란2017년 OpenAI 팀이 발표한 논문에서 소개된최신 알고리즘 기법 구현하는 것에 비해 성능이 뛰어나다 PPO 알고리즘은 로봇 제어, 게임 등 다양한 강화 학습과 제어에서 우수한 결과가 나타났다 정책 경사정책 경사는 정책 반복법에 기초한다가치 반복법에 기초하는 Q함수와 다르다 특정 상태에서 취하는 행동의 확률 분포로 이루어진 정책 네트워크를 학습시킨다상태를 입력으로 하고 출력은 행동의 확률 분포이다 정책 경사의 장점1. 정책 경사는 출력인 확률 분포를 정규 분포라 가정하고 샘플링을 진행하면 에이전트의 연속된 행동을 추출할 수 있다DQN은 에이전트가 취할 수 있는 행동이 불연속한 경우에만 적용할 수 있다2. 정책 네트워크는 확률 분포를 기반으로 해서 행동을 선택하..
3-1. 게임을 스스로 플레이하는 에이전트 만들기강화 학습을 게임 환경에서 공부하는 이유현실에서는 환경 통제가 거의 불가능하다게임 환경을 통해 에이전트, 환경, 보상을 통제하도록 한다 OpenAI Gym 레트로를 위한 환경 준비(환경 설정 문제로 추후 수정)OS에 맞는 conda 환경을 설정한다 Ubuntu Not windows 준비가 되었으면git clone environment.yml에서 channels and dependencies를 수정한다가상환경이 생성된 이후 GL에서 문제가 발생하는데구글링 해본 결과 pyglet 1.5.11 버전으로 해결한다고 하여pyglet 버전도 수정한다 name: rl-gym-retrochannels: - defaultsdependencies: - ca-certif..
2-1. 딥러닝 복습다른 자료 참고 2-2. DQN(Deep Q Network) 공부하기Q학습 복기Q학습은 상태 s와 행동 a에 대한 행동 가치 함수 Q(s,a)를 학습한다s와 a를 무작위로 선택하여 행동 a의 결과로 변한 상태 s'에서 행동 a'에 대한 행동 가치 함수의 값을 Q(s,a)에 대입하여 학습 진행 DQN의 구조상태(게임 화면)을 입력층으로 넣고마지막 분류 단계에서는 에이전트가 취할 수 있는 행동에 해당하는 노드를 출력층에 배치각 노드의 출력은 입력 화면s와 해당 노드의 행동 a에 해당하는 Q함수의 값인 Q(s,a)이다 이렇게 구성한 네트워크를 학습시키면 모든 종류의 입력에 따른 각 행동의 Q 함수의 값을 구할 수 있다 DQN 학습 순서1. Q(s,a) 무작위로 초기화s와 a에 대한 테이블이..
1-1. 강화 학습 멀리서 훑어보기머신러닝 내의 학습지도학습이란데이터와 각 데이터에 대한 레이블이 주어졌을 때 새로운 데이터에 대한 레이블을 매기는 방법을 학습하는 것 비지도학습이란레이블 없이 주어진 데이터에 대해 데이터를 분류하거나 밀도를 추청하는 방법을 학습하는 것 강화학습이란상태에 따른 행동에 대한 보상으로 상태에 대한 행동을 찾는 것 의사 결정을 위한 강화 학습강화학습은 의사 결정을 위한 인공지능 방법론이다. 다르게 말하면 강화 학습을 제대로 구현하기 위해서 사람의 의사 결정이 어떻게 이루어지는지 이해해야 한다. 1-2. 마르코프 결정 과정(MDP, Markov Decision Process)MDP 정의상태(state, s1): 에이전트가 환경 내 특정 시점에 관찰할 수 있는 것을 수치화행동(a..

Image Classification정의이미지를 입력 받았을 때이미지의 클래스를 예측하는 모델Cat(0.95), Dog(0.05) 와 같이 확률로 나타나며그 중 확률이 가장 높은 클래스가 해당한다 CNN(Convolutional Neural Network)Image classification 중 가장 많이 쓰이는 딥러닝 모델 중 하나이미지 처리에 특화되어 있다 Convolution이라는 패치를 통해weight를 갱신하고 연산하며, pooling, fully connected layer 등의 연산 방법을 사용할 수 있다 History of Image Classification대표적인 CNN의 역사 다양한 Image classification을 위한 DatasetsImageNet, CIFAR-10, C..
Ch.6 비지도 학습6-1. 군집 알고리즘비지도 학습비지도 학습: 타킷을 모르는 데이터를 예측하는 알고리즘흑백 샘플이미지의 경우 높은 값을 낮은 값으로 만들고 낮은 값을 높은 값으로 만든다 비지도 학습을 통한 이미지 분류이미지outline으로 나누어진 이미지의 픽셀만 남게 한다평균을 내어 데이터 개수 별로 구간을 나누어 확인하는 방법이 방법의 경우 평균이 비슷한 데이터끼리 솎아낼 수 없다 대신 각 픽셀 별로 평균을 내는 경우 그만큼 특징이 많아져서 구별하기 수월하다 평균값을 각 이미지에서 뺀 후 차이가 적은 순으로 해당 이미지 인것을 확인할 수 있다 군집: 비슷한 샘플끼리 그룹을 모으는 작업클러스터: 군집을 통해 생성된 그룹 비슷한 샘플끼리 모으기 6-2. k-평균k-평균 알고리즘k-평균 알고리즘: 평균..

Ch.5 트리 알고리즘 5-1. 결정 트리 결정 트리 결정 트리: 데이터를 잘 나눌 수 있는 질문을 통해 분류 정확도를 높인 자료 구조 각 질문은 특성을 이분할 수 있는 질문이다 불순도: 지니 불순도: 결정 트리 모델은 부모 노드와 자식 노드의 불순도 차이가 가능한 크도록 트리를 성장시킨다 정보 이득: 부모 노드와 자식 노드의 불순도 차이 클래스의 표준을 criterion = 'entropy'를 지정하여 엔트로피 불순도를 사용할 수 있다 가지치기를 통해 최대 깊이를 지정하여 루트 노드 아래로 성장할 수 있는 노드를 제한한다 max_depth = 매개 변수를 설정하여 제한할 수 있다 특성 중요도: 어떤 특성이 가장 유용한지 나타내는 정도 결정 트리에 사용된 특성이 불순도를 감소하는데 기여한 정도를 나타내..

Ch.4 다양한 분류 알고리즘 4-1. 로지스틱 회귀 로지스틱 회귀 로지스틱 회귀: 선형 방정식을 학습하는 분류 모델 시그모이드 함수(로지스틱 함수)를 통해 클래스 확률을 출력 로지스틱 회귀는 계수의 제곱을 규제(L2 규제) 소프트맥스: 지수 함수를 모두 계산해 더한 후 그 합을 각 지수 함수에 나눈 것 출력 결과의 합이 1이다 4-2. 확률적 경사 하강법 점진적인 학습 경사 하강법: 목적 함수를 낮추기 위해 조금씩 내려오는 방식 조금씩 내려와야 가장 낮은 목적 함수를 찾을 수 있다 크게 내려오면 목적 함수가 오히려 올라갈 수 있다 확률적 경사 하강법: 경사 하강법에서 전체 샘플을 사용하지 않고 하나의 샘플을 훈련 세트에서 랜덤하게 골라 가장 확률이 높은 답을 구하는 방법 점진적 학습 또는 온라인 학습이..