✅ 1. 가치 함수의 기본 개념


✅ 2. 행위자-비평자 (Actor-Critic) 구조

구성 요소 역할
행위자 (Actor) 정책 π(a
비평자 (Critic) 해당 행동이 얼마나 좋은지를 평가 (보통 V(s), Q(s, a) 이용)

✅ 3. 정책 기반 vs 가치 기반 vs 행위자-비평자

방식 설명
가치 기반 (Value-based) Q-러닝 방식, Q값 학습 → 정책 유도
정책 기반 (Policy-based) 정책 파라미터를 직접 업데이트 (REINFORCE 등)
행위자-비평자 (Actor-Critic) 정책과 가치 함수 동시 학습 (결합형)

🔍 그림 5.2 참고: 세 가지 방식의 통합 구조를 시각적으로 표현


🎯 Actor-Critic 구조 시각 도식

[상태 Sₜ]
     ↓
[행위자 (Actor) π(a|s)]
     ↓ 선택된 행동
[동작 aₜ]
     ↓
┌──────────────┐
│ 환경으로부터  │
│ 보상 Rₜ₊₁     │
│ 상태 Sₜ₊₁     │
└──────────────┘
     ↓
[비평자 (Critic) V(sₜ)]
     ↓
[Rₜ₊₁ - V(sₜ)] → Advantage (이득)
     ↓
→ 정책 π(a|s) 업데이트에 사용됨

이득(Advantage) = 실제 받은 보상 - 기대했던 가치

→ 정책이 기대보다 얼마나 잘했는지를 반영


🔍 세 가지 강화학습 방식 비교

구분 설명 예시 알고리즘
가치 기반 상태-동작의 가치 Q(s, a)를 추정하여 정책 도출 Q-Learning
정책 기반 정책 π(a s)를 직접 파라미터로 학습
Actor-Critic 정책과 가치함수를 동시에 학습 (이득 기반 업데이트) Advantage Actor-Critic