Notion | The connected workspace with site publishing

✅ 1. 가치 함수의 기본 개념

Q 함수 (Q(s, a))

: 상태 s에서 동작 a를 선택했을 때 기대되는 누적 보상

→ Q(s, a) = expected cumulative reward
V 함수 (V(s))

: 상태 s에서 가능한 모든 동작 중 가장 좋은 동작을 선택했을 때의 기대 보상

→ V(s) = maxₐ Q(s, a)

✅ 2. 행위자-비평자 (Actor-Critic) 구조

구성 요소	역할
행위자 (Actor)	정책 π(a
비평자 (Critic)	해당 행동이 얼마나 좋은지를 평가 (보통 V(s), Q(s, a) 이용)

이득 함수 (Advantage)

: Advantage = R - V(s)

→ 실제 보상 R이 기대보다 얼마나 좋은지를 나타냄
손실 함수 예시

손실=−log(π(a∣s))∗(R−Vπ(s))손실 = -log(π(a|s)) * (R - Vπ(s))

✅ 3. 정책 기반 vs 가치 기반 vs 행위자-비평자

방식	설명
가치 기반 (Value-based)	Q-러닝 방식, Q값 학습 → 정책 유도
정책 기반 (Policy-based)	정책 파라미터를 직접 업데이트 (REINFORCE 등)
행위자-비평자 (Actor-Critic)	정책과 가치 함수 동시 학습 (결합형)

🔍 그림 5.2 참고: 세 가지 방식의 통합 구조를 시각적으로 표현

🎯 Actor-Critic 구조 시각 도식

[상태 Sₜ]
     ↓
[행위자 (Actor) π(a|s)]
     ↓ 선택된 행동
[동작 aₜ]
     ↓
┌──────────────┐
│ 환경으로부터  │
│ 보상 Rₜ₊₁     │
│ 상태 Sₜ₊₁     │
└──────────────┘
     ↓
[비평자 (Critic) V(sₜ)]
     ↓
[Rₜ₊₁ - V(sₜ)] → Advantage (이득)
     ↓
→ 정책 π(a|s) 업데이트에 사용됨

이득(Advantage) = 실제 받은 보상 - 기대했던 가치

→ 정책이 기대보다 얼마나 잘했는지를 반영

🔍 세 가지 강화학습 방식 비교

구분	설명	예시 알고리즘
가치 기반	상태-동작의 가치 Q(s, a)를 추정하여 정책 도출	Q-Learning
정책 기반	정책 π(a	s)를 직접 파라미터로 학습
Actor-Critic	정책과 가치함수를 동시에 학습 (이득 기반 업데이트)	Advantage Actor-Critic