均值演员-评论家

Sep, 2017

Mean Actor Critic

Kavosh Asadi, Cameron Allen, Melrose Roderick, Abdel-rahman Mohamed, George Konidaris...

TL;DR提出了一种新的算法Mean Actor-Critic（MAC）用于离散动作连续状态强化学习，该算法使用代理的所有动作值的显式表示来估计策略的梯度，证明这种方法相对于传统的Actor-Critic方法减少了策略梯度估计中的方差，并在两个控制域和六个Atari游戏上展示了与最先进的策略搜索算法的竞争力。

Abstract

We propose a new algorithm, mean actor-critic (MAC), for discrete-action continuous-state reinforcement learning. MAC is a policy gradient