AcceRL:深度强化学习策略加速框架
介绍了两种神经网络算法 ——trust region actor-critic with experience replay (TRACER) 和 episodic natural actor-critic with experience replay (eNACER),以加速深度强化学习,在线学习过程中的效果,并利用演示数据来预先训练深度强化学习模型,以缓解冷启动问题。
Jul, 2017
本文提出了一种基于人类启发的框架以提高采样效率,其中通过逐步提供简单但相似的任务来适应复杂的强化学习任务,并且使用任何转移学习方法来减少样本复杂性而不增加计算复杂性,实验表明该框架能够在优化问题方面表现出良好的性能。
Feb, 2023
强化学习是控制动态系统的强大方法,但其学习机制可能导致不可预测的行为,从而损害关键系统的安全性。本文中,我们提出了一种具有自适应控制正则化的强化学习方法(RL-ACR),通过将强化学习策略与控制正则化器结合起来,确保强化学习的安全性,并对预测的系统行为应用安全约束。我们使用可学习的 “聚焦” 权重来实现适应性,该权重通过训练来最大化策略组合的累积奖励。随着离策略学习中强化学习策略的改进,聚焦权重改进了初始亚最优策略,逐渐更多地依赖强化学习策略。我们在关键医疗控制应用中展示了 RL-ACR 的有效性,并进一步研究了其在四个经典控制环境中的性能。
Apr, 2024
探究了如何优化现有的深度强化学习算法以适应现代计算机,特别是在 CPU 和 GPU 的组合下使用许多并行模拟器实例进行训练,并建立了一个统一的并行化框架,使用 GPU 加速数据收集和训练,成功地在短短几分钟内使用整个 DGX-1 在 Atari 游戏中学习出成功的策略。
Mar, 2018
本文介绍了如何使用双重 A3C 算法和神经网络来最大化智能体在未知环境中的奖励,并在 OpenAI Gym Atari 2600 游戏中超越了基准。
Mar, 2023
本研究提出了一种基于强化学习的数据驱动方法来学习神经网络的压缩模式,可以在维持与输入网络相似的性能的同时实现超过 10 倍的模型压缩,并且通过预训练小型‘teacher’网络的策略可以加速大型‘teacher’网络的训练。
Sep, 2017
提出一种高效并行化深度强化学习算法的框架,可以在单台计算机上实现多个参与者的学习。该框架可以应用于各种算法,包括值函数和策略梯度算法,并且可以在 GPU 上高效实现。通过在 GPU 上实现了优势优化器演员 - 评论员算法,使用同步更新和在策略体验上训练,结果表明该算法在短时间内取得了 Atari 游戏领域的最新效果。
May, 2017
本研究提出了一种名为 “Policy Transfer Framework” 的框架,该框架采用多策略转移方式对强化学习中的目标策略进行直接优化,可以很方便地与现有的深度强化学习方法相结合,实验结果表明,该框架明显加速了学习过程,并在离散和连续动作空间中超越了现有的策略转移方法,具有较高的学习效率和最终性能。
Feb, 2020
使用深度强化学习(DRL)进行流控制的方法现已提出,文章则针对使用計算流体动力学(CFD)数据训练 DRL 时面临的速度瓶颈进行改进,并提出两种方法以加速其运行:计算流体动力学本身的并行化以及 DRL 算法的并行处理。研究表明,这两种方法的组合可以实现对更复杂流体力学问题的 DRL 研究。
Jun, 2019