Sep, 2015

深度强化学习的连续控制

TL;DR本论文将 Deep Q-Learning 算法应用于连续动作域,并提出了一种基于确定性策略梯度的演员 - 评论家模型无模型算法,可在连续动作空间中进行操作,成功解决了 20 多个模拟物理任务,并能与完全访问动态并了解其导数的规划算法相竞争,并证明该算法对许多任务能够进行端到端学习。