Sep, 2019

共享经验回放的离策略演员 - 评论家算法

TL;DR本文提出并调研了一种带有均匀大规模经验回放机制的演员 - 评论家增强学习算法,提供了解决两个挑战的方案:(a)利用经验回放的高效演员评论家学习(b)离线策略学习的稳定性。通过分析重要性权重采样中的偏差 - 方差权衡,提出了混合经验回放采样和在线策略采样的新的信任区间方案,旨在处理 V-trace 不稳定的数据分布,为超参数扫描提供了快速有效的解决方案,并在 Atari 游戏中证明了该设置的数据效率的优势。