Mar, 2019

异步情节式深化确定性策略梯度法:面向计算复杂环境的连续控制

TL;DR本文提出了一种扩展Deep Deterministic Policy Gradient(DDPG)的算法Asynchronous Episodic DDPG(AE-DDPG),通过异步学习和组合应用周期控制和动态噪声等技术,该算法在连续控制任务中取得更好的结果,具有更高的奖励和更高的数据利用效率。