Apr, 2018

分布式分布式确定性策略梯度

TL;DR本研究采用分布式角度的强化学习来适用于连续控制环境,提出了分布式分布式深度确定策略梯度算法 D4PG,结合了 N 步回报和优先经验回放等简单改进。实验结果表明,在各种控制任务、难以操作的任务和一组基于障碍的定位任务中,D4PG 算法均实现了最先进的性能。