BriefGPT.xyz
Sep, 2017
均值演员-评论家
Mean Actor Critic
HTML
PDF
Kavosh Asadi, Cameron Allen, Melrose Roderick, Abdel-rahman Mohamed, George Konidaris...
TL;DR
提出了一种新的算法Mean Actor-Critic(MAC)用于离散动作连续状态强化学习,该算法使用代理的所有动作值的显式表示来估计策略的梯度,证明这种方法相对于传统的Actor-Critic方法减少了策略梯度估计中的方差,并在两个控制域和六个Atari游戏上展示了与最先进的策略搜索算法的竞争力。
Abstract
We propose a new algorithm,
mean actor-critic
(MAC), for discrete-action continuous-state
reinforcement learning
. MAC is a
policy gradient
→