使用剪切目标网络的重要性加权异步架构

ICLRNov, 2019

使用剪切目标网络的重要性加权异步架构

IMPACT: Importance Weighted Asynchronous Architectures with Clipped Target Networks

Michael Luo, Jiahao Yao, Richard Liaw, Eric Liang, Ion Stoica

TL;DR通过使用 IMPACT 算法，可以在异步分布式强化学习环境下，提高样本奖励并同时实现高样本利用率与快速训练速度。

Abstract

The practical usage of reinforcement learning agents is often bottlenecked by the duration of training time. To accelerate training, practitioners often turn to distributed reinforcement learning architectures to

reinforcement learning distributed learning sample efficiency impact impala

发现论文，激发创造

IMPALA: 基于重要性加权的 Actor-Learner 结构的可扩展分布式深度强化学习

使用一种新的分布式代理 IMPALA (Importance Weighted Actor-Learner Architecture)，在 DMLab-30 和 Atari-57 的环境下进行多任务强化学习，并展示了其成功的性能和多任务学习的积极转移效果。

Feb, 2018

RLlib-IMPALA 框架在可伸缩电压 - 无功优化中的应用研究：一种强化学习方法

电力系统中的 VVO 优化日益关键，本研究提出了一种基于深度强化学习和重要性加权 Actor-Learner 架构的新颖框架，利用 RAY 平台的分布式计算和高级超参数调整功能，显著加快了 VVO 解空间中的探索和利用阶段，并取得了优于现有 DRL 方法的奖励结果和 10 倍计算要求减少的显著成果。

Feb, 2024

分布式优先经验回放

本文中，我们提出了一个分布式深度强化学习架构，可以使代理能够有效地从数量级更多的数据中学习，其中优先经验回放是实现高性能的关键因素。

Mar, 2018

AcceRL：深度强化学习策略加速框架

AcceRL 是一种基于神经网络压缩的轻量级并行训练框架，它综合了多种神经网络压缩技术，用 Off-Policy 方法来优化经验，显著降低了传统方法的时间成本并保持了相同的策略质量。

Nov, 2022

自适应、基于交易的多智能体系统的分散调度

该研究采用交易方法，将多智能体强化学习应用于模拟的调度环境中，研究分布式代理体系结构及自主定价在任务分配中的应用。

Jul, 2022

强化学习和自适应采样用于优化 DNN 编译

通过将神经网络的编译器优化问题作为强化学习问题，本文提出了一种新的解决方案，名为 ReLeASE，它通过聚类来聚焦于代表性点上的昂贵采样，并且通过在较短的时间内更好地探索来提高样本的质量。实验表明，使用自适应采样的强化学习可以大大加快优化时间并提高现代深度网络的推理时间。

May, 2019

协作多智能体强化学习的高效分布式框架

本研究提出了一种基于 actor-work-learner 架构的分布式 MARL 框架，在 MaCA 军事模拟环境和 SMAC 3D 实时战略游戏环境中验证了其在多智能体强化学习性能提升方面的有效性。

May, 2022

深度强化学习的大规模并行方法

本文介绍了第一个大规模分布式深度强化学习的架构，使用 Parallel Actors、Parallel Learners、分布式神经网络和分布式体验存储等四个主要组件，在 Atari 2600 游戏中应用 Deep Q-Network 算法，获得了 41 个游戏的超越性能，并在大多数游戏中缩短了达成这些结果所需的时间。

Jul, 2015

维度重要性采样权重截断用于高效采样强化学习

本文介绍了一种针对 Proximal Policy Optimization (PPO) 算法的改良方法，通过维度加权剪裁的方式来避免重大偏差，提高智能体高维任务的样本效率并提升新算法的性能。

May, 2019

通过提升实现对抗模仿学习

通过建立加权回放缓冲区的新算法 AILBoost，该文研究了对抗性模仿学习在离策略训练中的有效性，实验证明 AILBoost 相较于 DAC 在控制器状态和像素环境中性能更佳。

Apr, 2024