Priceless
[RL] Do it 강화 학습 입문 2장 - 강화 학습에 딥러닝 조합하기 본문
2-1. 딥러닝 복습
다른 자료 참고
2-2. DQN(Deep Q Network) 공부하기
Q학습 복기
Q학습은 상태 s와 행동 a에 대한 행동 가치 함수 Q(s,a)를 학습한다
s와 a를 무작위로 선택하여 행동 a의 결과로 변한 상태 s'에서 행동 a'에 대한 행동 가치 함수의 값을
Q(s,a)에 대입하여 학습 진행
DQN의 구조
상태(게임 화면)을 입력층으로 넣고
마지막 분류 단계에서는 에이전트가 취할 수 있는 행동에 해당하는 노드를 출력층에 배치
각 노드의 출력은 입력 화면s와 해당 노드의 행동 a에 해당하는 Q함수의 값인 Q(s,a)이다
이렇게 구성한 네트워크를 학습시키면 모든 종류의 입력에 따른 각 행동의 Q 함수의 값을 구할 수 있다
DQN 학습 순서
1. Q(s,a) 무작위로 초기화
s와 a에 대한 테이블이 아닌 CNN의 하이퍼파라미터를 무작위로 초기화
2. 상태 s에서 a를 취하고, 보상 r을 획득하며 다음 상태 s'로 전이
CNN의 배치 크기가 n일 때 에이전트는 행동을 n회 취하며 n개의 상태 데이터를 얻는다
3. 손실 함수를 계산하여 손실 함수를 최소화 하는 방향으로 진행
손실 함수인 Q함수는
Q(St, At) <-- Q(St, At) + a(Rt+1 +...)
'AI > RL' 카테고리의 다른 글
[RL] Do it 강화 학습 입문 6장 - 분산 강화 학습 (0) | 2024.07.30 |
---|---|
[RL] Do it 강화 학습 입문 5장 - 영화 <아이언맨>의 자비스 만들기 (5) | 2024.07.30 |
[RL] Do it 강화 학습 입문 4장 - 딥레이서로 구현하는 자율주행 (0) | 2024.07.30 |
[RL] Do it 강화 학습 입문 3장 - 알파고 도전을 위한 첫걸음 (0) | 2024.07.30 |
[RL] Do it 강화 학습 입문 1장 - 강화 학습이란? (0) | 2024.07.27 |