<aside> ✅

행위자-비평자(actor-critic) 알고리즘

REINFORCE 장점 + 심층 Q 장점 </aside>

RECALL

REINFORCE 알고리즘

일화적 알고리즘(episode algorithm)
각 에피소드에서 동작과 보상을 수집하고 이 손실이 최소가 되도록 정책 함수의 매개변수들을 갱신하는 과정을 반복 → 보상이 큰 동작에 더 높은 확률 배정하도록 정책 함수 개선
복잡한 환경에서 별로

점진적 / 온라인 방식

환경에서의 일과 무관하게 일정 간격으로 계속해서 매개변수 갱신

심층 Q 신경망

비일화적 설정 (/ 학습 효율과 안정성을 위한 경험 재현 기법 필요)
이산적 동작 공간에서 효과적 (/ 정책함수 필요)

<aside> ✅

분산 이익 행위자-비평자(distributed advantage actor-critic, DA2C)

정책 기울기 방법
온라인 학습의 장점을 가지되, 경험 재현 X
동작에 관한 확률분포에서 직접 동작 선택 (정책 기울기 방법의 장점) </aside>