ICLRNov, 2016
经验重放的高样本效率演员 - 评论家算法
Sample Efficient Actor-Critic with Experience Replay
Ziyu Wang, Victor Bapst, Nicolas Heess, Volodymyr Mnih, Remi Munos...
TL;DR本文介绍了一个具有经验重放的 Actor-critic 深度强化学习算法,通过引入截断重要性采样、随机 Dueling 网络结构以及一种新的信任区域策略优化方法,稳定、高效地在包括离散的 57 种 Atari 游戏环境和多种连续控制问题中表现出色。