<aside>
✅
행위자-비평자(actor-critic) 알고리즘
- REINFORCE 장점 + 심층 Q 장점
</aside>
RECALL
REINFORCE 알고리즘
- 일화적 알고리즘(episode algorithm)
- 각 에피소드에서 동작과 보상을 수집하고 이 손실이 최소가 되도록 정책 함수의 매개변수들을 갱신하는 과정을 반복 → 보상이 큰 동작에 더 높은 확률 배정하도록 정책 함수 개선
- 복잡한 환경에서 별로
점진적 / 온라인 방식
- 환경에서의 일과 무관하게 일정 간격으로 계속해서 매개변수 갱신
심층 Q 신경망
- 비일화적 설정 (/ 학습 효율과 안정성을 위한 경험 재현 기법 필요)
- 이산적 동작 공간에서 효과적 (/ 정책함수 필요)
<aside>
✅
분산 이익 행위자-비평자(distributed advantage actor-critic, DA2C)
- 정책 기울기 방법
- 온라인 학습의 장점을 가지되, 경험 재현 X
- 동작에 관한 확률분포에서 직접 동작 선택 (정책 기울기 방법의 장점)
</aside>