Mar, 2019

异步情节式深化确定性策略梯度法:面向计算复杂环境的连续控制

TL;DR本文提出了一种扩展 Deep Deterministic Policy Gradient (DDPG) 的算法 Asynchronous Episodic DDPG (AE-DDPG),通过异步学习和组合应用周期控制和动态噪声等技术,该算法在连续控制任务中取得更好的结果,具有更高的奖励和更高的数据利用效率。