GPU 上异步优势行动者 - 评论家强化学习

Nov, 2016

GPU 上异步优势行动者 - 评论家强化学习

Reinforcement Learning through Asynchronous Advantage Actor-Critic on a GPU

Mohammad Babaeizadeh, Iuri Frosio, Stephen Tyree, Jason Clemons, Jan Kautz

TL;DR介绍了一个混合 CPU/GPU 版本的异步优势 Actor-Critic（A3C）算法，分析了它的计算特性并集中讨论了借助 GPU 计算能力的关键方面，通过引入队列系统和动态调度策略，提高了算法效率；基于 TensorFlow 的混合 CPU/GPU 版本实现较 CPU 版本有着显著的加速。

Abstract

We introduce a hybrid cpu/gpu version of the Asynchronous Advantage Actor-Critic (A3C) algorithm, currently the state-of-the-art method in reinfo

reinforcement learning cpu gpu asynchronous algorithm tensorflow

发现论文，激发创造

深度强化学习的异步方法

提出一种使用异步梯度下降法优化深度神经网络控制器的深度强化学习框架，演示了四种标准强化学习算法的异步变体，并表明并行 actor-learner 对训练具有稳定作用。其中最佳表现的方法，即 actor-critic 的异步变体，在 Atari 领域超越了现有的最佳表现，并且仅在单个多核 CPU 上训练一半的时间而不是 GPU。此外，还演示了异步 actor-critic 成功处理了各种连续运动控制问题以及使用视觉输入导航随机 3D 迷宫的新任务。

Feb, 2016

双重 A3C：在 OpenAI Gym 游戏上的深度强化学习

本文介绍了如何使用双重 A3C 算法和神经网络来最大化智能体在未知环境中的奖励，并在 OpenAI Gym Atari 2600 游戏中超越了基准。

Mar, 2023

深度强化学习的辅助任务 —— 代理建模

本文探讨了如何将演员 - 评论家（Actor-Critic）方法在深度强化学习中，尤其是异步优势演员评论家（A3C）与代理建模相结合。我们提出了两种体系结构来执行代理建模，旨在学习其他代理的策略作为辅助任务。在协作和竞争领域的实验结果表明，所提出的体系结构稳定了学习，并在学习期望报酬最佳响应时优于标准 A3C 体系结构。

Jul, 2019

多智能体强化学习的异步演员 - 评论家算法

该论文提出一种多代理演员 - 评论家方法，允许代理在异步环境中直接优化策略，以解决多代理系统中同步决策的问题，提高学习效率和性能。

Sep, 2022

量子优势演员 - 评论家强化学习

本研究提出一种新颖的量子强化学习方法，将优势演员 - 评论家算法与变分量子电路结合，通过替代部分经典组件解决了强化学习可扩展性方面的问题，同时保持了较高性能。通过实证测试多种量子优势演员 - 评论家配置与知名的倒立摆环境，我们的结果表明，使用量子演员或量子评论家与经典后处理的混合策略相比具有类似参数数量的纯经典或纯量子变体，可以显著提高性能。结果进一步揭示了当前量子方法的局限性，指出了嘈杂中尺度量子计算机硬件约束的进一步研究，以扩展更大更复杂的控制任务的混合方法。

Jan, 2024

深度强化学习下的端到端赛车驾驶

本文提出了使用最新的强化学习算法进行端到端驾驶研究，仅使用来自前置摄像头的 RGB 图像，通过异步演员 - 评论家 (A3C) 框架在真实的赛车游戏中学习车辆控制，并在不同的道路结构、图形和物理特性下进行评估。结果表明本方法可以快速收敛和更稳健的驾驶，同时在看不见的赛道上和法定车速下进行了广义化证明。同时，我们的方法在实际影像序列上显示出一定的领域适应能力。

Jul, 2018

深度强化学习的加速方法

探究了如何优化现有的深度强化学习算法以适应现代计算机，特别是在 CPU 和 GPU 的组合下使用许多并行模拟器实例进行训练，并建立了一个统一的并行化框架，使用 GPU 加速数据收集和训练，成功地在短短几分钟内使用整个 DGX-1 在 Atari 游戏中学习出成功的策略。

Mar, 2018

深度强化学习的高效并行方法

提出一种高效并行化深度强化学习算法的框架，可以在单台计算机上实现多个参与者的学习。该框架可以应用于各种算法，包括值函数和策略梯度算法，并且可以在 GPU 上高效实现。通过在 GPU 上实现了优势优化器演员 - 评论员算法，使用同步更新和在策略体验上训练，结果表明该算法在短时间内取得了 Atari 游戏领域的最新效果。

May, 2017

基于 A3C 学习和残差循环神经网络的随机边缘云计算环境动态调度

提出了一种基于 A3C 和 R2N2 的边缘云环境实时调度器，允许分散式学习，同时跨多个代理并利用时间模式提供有效的调度决策，实验表明在实际数据集上相比现有算法的能耗、响应时间、服务级别协议和运行成本等方面都有显著改进。

Sep, 2020

量子强化学习的异步训练

本文提出了一种采用异步训练 QRL 代理的方法，具体选择了优势演员评论家变分量子策略的异步训练，并通过数值模拟证明，相对于采用相似模型大小和架构的经典代理，采用异步训练 QRL 代理在考虑的任务中可以达到相似或更高的性能

Jan, 2023