Feb, 2016

深度强化学习的异步方法

TL;DR提出一种使用异步梯度下降法优化深度神经网络控制器的深度强化学习框架,演示了四种标准强化学习算法的异步变体,并表明并行actor-learner对训练具有稳定作用。其中最佳表现的方法,即actor-critic的异步变体,在Atari领域超越了现有的最佳表现,并且仅在单个多核CPU上训练一半的时间而不是GPU。此外,还演示了异步actor-critic成功处理了各种连续运动控制问题以及使用视觉输入导航随机3D迷宫的新任务。