Q 함수 (Q(s, a))
: 상태 s에서 동작 a를 선택했을 때 기대되는 누적 보상
→ Q(s, a) = expected cumulative reward
V 함수 (V(s))
: 상태 s에서 가능한 모든 동작 중 가장 좋은 동작을 선택했을 때의 기대 보상
→ V(s) = maxₐ Q(s, a)
구성 요소 | 역할 |
---|---|
행위자 (Actor) | 정책 π(a |
비평자 (Critic) | 해당 행동이 얼마나 좋은지를 평가 (보통 V(s), Q(s, a) 이용) |
이득 함수 (Advantage)
: Advantage = R - V(s)
→ 실제 보상 R이 기대보다 얼마나 좋은지를 나타냄
손실 함수 예시
손실=−log(π(a∣s))∗(R−Vπ(s))손실 = -log(π(a|s)) * (R - Vπ(s))
방식 | 설명 |
---|---|
가치 기반 (Value-based) | Q-러닝 방식, Q값 학습 → 정책 유도 |
정책 기반 (Policy-based) | 정책 파라미터를 직접 업데이트 (REINFORCE 등) |
행위자-비평자 (Actor-Critic) | 정책과 가치 함수 동시 학습 (결합형) |
🔍 그림 5.2 참고: 세 가지 방식의 통합 구조를 시각적으로 표현
[상태 Sₜ]
↓
[행위자 (Actor) π(a|s)]
↓ 선택된 행동
[동작 aₜ]
↓
┌──────────────┐
│ 환경으로부터 │
│ 보상 Rₜ₊₁ │
│ 상태 Sₜ₊₁ │
└──────────────┘
↓
[비평자 (Critic) V(sₜ)]
↓
[Rₜ₊₁ - V(sₜ)] → Advantage (이득)
↓
→ 정책 π(a|s) 업데이트에 사용됨
이득(Advantage) = 실제 받은 보상 - 기대했던 가치
→ 정책이 기대보다 얼마나 잘했는지를 반영
구분 | 설명 | 예시 알고리즘 |
---|---|---|
가치 기반 | 상태-동작의 가치 Q(s, a)를 추정하여 정책 도출 | Q-Learning |
정책 기반 | 정책 π(a | s)를 직접 파라미터로 학습 |
Actor-Critic | 정책과 가치함수를 동시에 학습 (이득 기반 업데이트) | Advantage Actor-Critic |