AcceRL：深度强化学习策略加速框架

Nov, 2022

AcceRL：深度强化学习策略加速框架

AcceRL: Policy Acceleration Framework for Deep Reinforcement Learning

Hongjie Zhang

TL;DRAcceRL 是一种基于神经网络压缩的轻量级并行训练框架，它综合了多种神经网络压缩技术，用 Off-Policy 方法来优化经验，显著降低了传统方法的时间成本并保持了相同的策略质量。

Abstract

deep reinforcement learning has achieved great success in various fields with its super decision-making ability. However, the policy learning process requires a large amount of training time, causing

deep reinforcement learning neural network compression policy learning energy consumption off-policy methods

发现论文，激发创造

一种用监督数据提高采样效率的演员 - 评论家强化学习方法在对话管理中的应用

介绍了两种神经网络算法 ——trust region actor-critic with experience replay (TRACER) 和 episodic natural actor-critic with experience replay (eNACER)，以加速深度强化学习，在线学习过程中的效果，并利用演示数据来预先训练深度强化学习模型，以缓解冷启动问题。

Jul, 2017

针对大动作空间的对话系统高效样本深度增强学习

本文探究深度强化学习方法解决在口语对话系统的策略优化问题，通过结合多种方法提出 ACER 算法以显著提高训练效率和应用范围。

Feb, 2018

加速强化学习的人类启发式框架

本文提出了一种基于人类启发的框架以提高采样效率，其中通过逐步提供简单但相似的任务来适应复杂的强化学习任务，并且使用任何转移学习方法来减少样本复杂性而不增加计算复杂性，实验表明该框架能够在优化问题方面表现出良好的性能。

Feb, 2023

强化学习自适应控制正则化在关键系统安全控制中的应用

强化学习是控制动态系统的强大方法，但其学习机制可能导致不可预测的行为，从而损害关键系统的安全性。本文中，我们提出了一种具有自适应控制正则化的强化学习方法（RL-ACR），通过将强化学习策略与控制正则化器结合起来，确保强化学习的安全性，并对预测的系统行为应用安全约束。我们使用可学习的 “聚焦” 权重来实现适应性，该权重通过训练来最大化策略组合的累积奖励。随着离策略学习中强化学习策略的改进，聚焦权重改进了初始亚最优策略，逐渐更多地依赖强化学习策略。我们在关键医疗控制应用中展示了 RL-ACR 的有效性，并进一步研究了其在四个经典控制环境中的性能。

Apr, 2024

深度强化学习的加速方法

探究了如何优化现有的深度强化学习算法以适应现代计算机，特别是在 CPU 和 GPU 的组合下使用许多并行模拟器实例进行训练，并建立了一个统一的并行化框架，使用 GPU 加速数据收集和训练，成功地在短短几分钟内使用整个 DGX-1 在 Atari 游戏中学习出成功的策略。

Mar, 2018

双重 A3C：在 OpenAI Gym 游戏上的深度强化学习

本文介绍了如何使用双重 A3C 算法和神经网络来最大化智能体在未知环境中的奖励，并在 OpenAI Gym Atari 2600 游戏中超越了基准。

Mar, 2023

N2N Learning: 基于策略梯度增强学习的网络压缩

本研究提出了一种基于强化学习的数据驱动方法来学习神经网络的压缩模式，可以在维持与输入网络相似的性能的同时实现超过 10 倍的模型压缩，并且通过预训练小型‘teacher’网络的策略可以加速大型‘teacher’网络的训练。

Sep, 2017

深度强化学习的高效并行方法

提出一种高效并行化深度强化学习算法的框架，可以在单台计算机上实现多个参与者的学习。该框架可以应用于各种算法，包括值函数和策略梯度算法，并且可以在 GPU 上高效实现。通过在 GPU 上实现了优势优化器演员 - 评论员算法，使用同步更新和在策略体验上训练，结果表明该算法在短时间内取得了 Atari 游戏领域的最新效果。

May, 2017

自适应策略转移的高效深度强化学习

本研究提出了一种名为 “Policy Transfer Framework” 的框架，该框架采用多策略转移方式对强化学习中的目标策略进行直接优化，可以很方便地与现有的深度强化学习方法相结合，实验结果表明，该框架明显加速了学习过程，并在离散和连续动作空间中超越了现有的策略转移方法，具有较高的学习效率和最终性能。

Feb, 2020

通过多环境方法加速流控制的深度强化学习策略

使用深度强化学习（DRL）进行流控制的方法现已提出，文章则针对使用計算流体动力学（CFD）数据训练 DRL 时面临的速度瓶颈进行改进，并提出两种方法以加速其运行：计算流体动力学本身的并行化以及 DRL 算法的并行处理。研究表明，这两种方法的组合可以实现对更复杂流体力学问题的 DRL 研究。

Jun, 2019