深度强化学习的加速方法
提出一种高效并行化深度强化学习算法的框架,可以在单台计算机上实现多个参与者的学习。该框架可以应用于各种算法,包括值函数和策略梯度算法,并且可以在 GPU 上高效实现。通过在 GPU 上实现了优势优化器演员 - 评论员算法,使用同步更新和在策略体验上训练,结果表明该算法在短时间内取得了 Atari 游戏领域的最新效果。
May, 2017
使用 GPU 加速物理引擎 NVIDIA Flex 模拟机器人学习在连续控制和运动任务上表现出了极大的优势,使用少量的 CPU 与单 GPU 即可短时间内训练出高效的机器人智能。
Oct, 2018
本研究介绍了一种并行的 Q 学习方案(PQL),通过并行化数据收集、策略学习和值学习,在墙钟训练时间上优于 PPO 算法,并保持了离策略学习的高样本效率。
Jul, 2023
本文介绍了第一个大规模分布式深度强化学习的架构,使用 Parallel Actors、Parallel Learners、分布式神经网络和分布式体验存储等四个主要组件,在 Atari 2600 游戏中应用 Deep Q-Network 算法,获得了 41 个游戏的超越性能,并在大多数游戏中缩短了达成这些结果所需的时间。
Jul, 2015
本文介绍并研究了一种在单个工作站 GPU 上使用大量并行性实现快速生成真实世界机器人任务策略的训练设置,其中包括不同训练算法组件在大规模并行模式下对最终策略性能和训练时间的影响分析和讨论,同时还介绍了一种新颖的游戏启发课程,适用于数千个模拟机器人的并行训练,并通过将策略转换到真实机器人以验证方法的有效性。
Sep, 2021
提出一种使用异步梯度下降法优化深度神经网络控制器的深度强化学习框架,演示了四种标准强化学习算法的异步变体,并表明并行 actor-learner 对训练具有稳定作用。其中最佳表现的方法,即 actor-critic 的异步变体,在 Atari 领域超越了现有的最佳表现,并且仅在单个多核 CPU 上训练一半的时间而不是 GPU。此外,还演示了异步 actor-critic 成功处理了各种连续运动控制问题以及使用视觉输入导航随机 3D 迷宫的新任务。
Feb, 2016
本文提出了一种采用异步训练 QRL 代理的方法,具体选择了优势演员评论家变分量子策略的异步训练,并通过数值模拟证明,相对于采用相似模型大小和架构的经典代理,采用异步训练 QRL 代理在考虑的任务中可以达到相似或更高的性能
Jan, 2023
该研究论文提出了一种基于量子计算的 VQC 算法结合数据重载方案的批量 RL 算法,并在 OpenAI CartPole 环境下与基于神经网络的离散 BCQ 算法进行了比较,证明了其在效率上的优势。
Apr, 2023
本文提出 SHAC 算法,该算法基于高性能可微分模拟器,可以有效利用模拟梯度,避免局部最小值问题,并通过截断学习窗口来避免梯度消失或爆炸。在控制任务中表现出更高的样本效率和更短的训练时间。
Apr, 2022