ICLRNov, 2016

经验重放的高样本效率演员 - 评论家算法

TL;DR本文介绍了一个具有经验重放的 Actor-critic 深度强化学习算法,通过引入截断重要性采样、随机 Dueling 网络结构以及一种新的信任区域策略优化方法,稳定、高效地在包括离散的 57 种 Atari 游戏环境和多种连续控制问题中表现出色。