Sep, 2017

均值演员-评论家

TL;DR提出了一种新的算法Mean Actor-Critic(MAC)用于离散动作连续状态强化学习,该算法使用代理的所有动作值的显式表示来估计策略的梯度,证明这种方法相对于传统的Actor-Critic方法减少了策略梯度估计中的方差,并在两个控制域和六个Atari游戏上展示了与最先进的策略搜索算法的竞争力。