深度强化学习的加速方法

MMMar, 2018

Accelerated Methods for Deep Reinforcement Learning

Adam Stooke, Pieter Abbeel

TL;DR探究了如何优化现有的深度强化学习算法以适应现代计算机，特别是在 CPU 和 GPU 的组合下使用许多并行模拟器实例进行训练，并建立了一个统一的并行化框架，使用 GPU 加速数据收集和训练，成功地在短短几分钟内使用整个 DGX-1 在 Atari 游戏中学习出成功的策略。

Abstract

deep reinforcement learning (RL) has achieved many recent successes, yet experiment turn-around time remains a key bottleneck in research and in practice. We investigate how to optimize existing deep RL algorithms for modern computers, specifically for a combination of CPUs and

deep reinforcement learning parallelization gpus policy gradient q-value learning

发现论文，激发创造

深度强化学习的高效并行方法

提出一种高效并行化深度强化学习算法的框架，可以在单台计算机上实现多个参与者的学习。该框架可以应用于各种算法，包括值函数和策略梯度算法，并且可以在 GPU 上高效实现。通过在 GPU 上实现了优势优化器演员 - 评论员算法，使用同步更新和在策略体验上训练，结果表明该算法在短时间内取得了 Atari 游戏领域的最新效果。

May, 2017

基于 GPU 加速的分布式强化学习机器人仿真

使用 GPU 加速物理引擎 NVIDIA Flex 模拟机器人学习在连续控制和运动任务上表现出了极大的优势，使用少量的 CPU 与单 GPU 即可短时间内训练出高效的机器人智能。

Oct, 2018

并行 Q 学习：在大规模并行仿真下扩展离策略强化学习

本研究介绍了一种并行的 Q 学习方案（PQL），通过并行化数据收集、策略学习和值学习，在墙钟训练时间上优于 PPO 算法，并保持了离策略学习的高样本效率。

Jul, 2023

深度强化学习的大规模并行方法

本文介绍了第一个大规模分布式深度强化学习的架构，使用 Parallel Actors、Parallel Learners、分布式神经网络和分布式体验存储等四个主要组件，在 Atari 2600 游戏中应用 Deep Q-Network 算法，获得了 41 个游戏的超越性能，并在大多数游戏中缩短了达成这些结果所需的时间。

Jul, 2015

利用大规模并行深度强化学习在几分钟内学会行走

本文介绍并研究了一种在单个工作站 GPU 上使用大量并行性实现快速生成真实世界机器人任务策略的训练设置，其中包括不同训练算法组件在大规模并行模式下对最终策略性能和训练时间的影响分析和讨论，同时还介绍了一种新颖的游戏启发课程，适用于数千个模拟机器人的并行训练，并通过将策略转换到真实机器人以验证方法的有效性。

Sep, 2021

深度强化学习的异步方法

提出一种使用异步梯度下降法优化深度神经网络控制器的深度强化学习框架，演示了四种标准强化学习算法的异步变体，并表明并行 actor-learner 对训练具有稳定作用。其中最佳表现的方法，即 actor-critic 的异步变体，在 Atari 领域超越了现有的最佳表现，并且仅在单个多核 CPU 上训练一半的时间而不是 GPU。此外，还演示了异步 actor-critic 成功处理了各种连续运动控制问题以及使用视觉输入导航随机 3D 迷宫的新任务。

Feb, 2016

量子强化学习的异步训练

本文提出了一种采用异步训练 QRL 代理的方法，具体选择了优势演员评论家变分量子策略的异步训练，并通过数值模拟证明，相对于采用相似模型大小和架构的经典代理，采用异步训练 QRL 代理在考虑的任务中可以达到相似或更高的性能

Jan, 2023

使用强化学习加速二次优化

使用强化学习 RLQP 策略自动调整参数，加速求解二次优化问题，与现有算法相比，RLQP 能显著提高性能并普适适用于不同应用场景。

Jul, 2021

批量量子强化学习

该研究论文提出了一种基于量子计算的 VQC 算法结合数据重载方案的批量 RL 算法，并在 OpenAI CartPole 环境下与基于神经网络的离散 BCQ 算法进行了比较，证明了其在效率上的优势。

Apr, 2023

带有并行可微模拟的加速策略学习

本文提出 SHAC 算法，该算法基于高性能可微分模拟器，可以有效利用模拟梯度，避免局部最小值问题，并通过截断学习窗口来避免梯度消失或爆炸。在控制任务中表现出更高的样本效率和更短的训练时间。

Apr, 2022