<aside> ✅

행위자-비평자(actor-critic) 알고리즘


RECALL

REINFORCE 알고리즘

점진적 / 온라인 방식

심층 Q 신경망


<aside> ✅

분산 이익 행위자-비평자(distributed advantage actor-critic, DA2C)