Cleanba: 可重复和高效的分布式强化学习平台

Sep, 2023

Cleanba: 可重复和高效的分布式强化学习平台

Cleanba: A Reproducible and Efficient Distributed Reinforcement Learning Platform

Shengyi Huang, Jiayi Weng, Rujikorn Charakorn, Min Lin, Zhongwen Xu...

TL;DR分布式深度强化学习是利用更多计算资源以在较短时间内训练自主代理的方法。然而，该研究首次表明即使在控制超参数的情况下，典型的 Actor-Learner 架构仍可能存在可复制性问题。为解决此问题，引入了 Cleanba，这是一个新的开源平台，提出了一个高度可复制的架构。Cleanba 实现了高度优化的 PPO 和 IMPALA 的分布式变种。实验结果表明，相比 moolib 和 torchbeast 中的强 IMPALA 基线以及 CleanRL 中的 PPO 基线，Cleanba 的变种可以获得相等或更高的分数。然而，Cleanba 的变种在不同硬件设置下呈现出 1）更短的训练时间和 2）更具可复制性的学习曲线。

Abstract

distributed deep reinforcement learning (DRL) aims to leverage more computational resources to train autonomous agents with less training time. Despite recent progress in the field, reproducibility issues have no

distributed deep reinforcement learning reproducibility issues cleanba actor-learner framework optimization algorithms

发现论文，激发创造

IMPALA: 基于重要性加权的 Actor-Learner 结构的可扩展分布式深度强化学习

使用一种新的分布式代理 IMPALA (Importance Weighted Actor-Learner Architecture)，在 DMLab-30 和 Atari-57 的环境下进行多任务强化学习，并展示了其成功的性能和多任务学习的积极转移效果。

Feb, 2018

CleanRL: 深度强化学习算法高质量的单文件实现

CleanRL 是一个使用深度强化学习算法的开源库，它提供了一个简单而可扩展的开发体验，并整合了生产工具，可帮助互动和扩展实验，同时提供实验记录功能以将度量标准、超参数、视频等保存到云端。

Nov, 2021

深度强化学习在 Atari 上真的超越人类了吗？平衡竞技场

介绍了 SABER 工具以及 human world records baseline, 通过 SABER 对当前最先进的 Rainbow 项目进行了评估，通过将 Implicit Quantile Networks 添加到 Rainbow 中提出了 Rainbow-IQN 算法用于提高性能。

Aug, 2019

TorchBeast：分布式强化学习的 PyTorch 平台

TorchBeast 是一个基于 PyTorch 的强化学习（RL）研究平台，实现了一个快速、异步、并行的 IMPALA 算法，同时具有简单性，研究人员可以使用 TorchBeast 进行可扩展的 RL 研究。

Oct, 2019

DRIBO: 多视角信息瓶颈下的鲁棒深度强化学习

本研究利用多视角设置引入对比的多视图信息瓶颈目标训练深度强化学习代理程序，从而可以学习到能够保留任务相关信息但压缩掉任务不相关信息的强大的表示，进而训练出具有鲁棒性和泛化性的高性能政策。

Feb, 2021

分布式深度强化学习：调查与多人多代理学习工具箱

本文综述分布式深度强化学习的研究进展，对比不同方法、研究关键因素，回顾工具箱的发展，并且基于综述开发出多人、多智能体分布式深度强化学习工具箱，并在复杂游戏环境中进行验证。最后指出未来挑战和发展方向。

Dec, 2022

可伸缩的多智能体模型基强化学习

本文提出了一种名为 MAMBA 的新方法，通过利用基于模型的强化学习（MBRL）进一步利用合作环境中的集中式训练，从而使代理之间的通信足以在执行阶段维持每个代理的世界模型，而虚拟推演可用于培训，从而通过减少与环境的互动次数，以与 Model-Free 的现有方法相比，在 SMAC 和 Flatland 的具有挑战性的领域中实现良好的性能。

May, 2022

深度强化学习的大规模并行方法

本文介绍了第一个大规模分布式深度强化学习的架构，使用 Parallel Actors、Parallel Learners、分布式神经网络和分布式体验存储等四个主要组件，在 Atari 2600 游戏中应用 Deep Q-Network 算法，获得了 41 个游戏的超越性能，并在大多数游戏中缩短了达成这些结果所需的时间。

Jul, 2015

分布式优先经验回放

本文中，我们提出了一个分布式深度强化学习架构，可以使代理能够有效地从数量级更多的数据中学习，其中优先经验回放是实现高性能的关键因素。

Mar, 2018

SEED RL：可伸缩高效的深度强化学习与加速化的中心推理

SEED 是一种现代可扩展强化学习代理程序，采用分布式算法 IMPALA/V-trace 和 R2D2，可以在 Atari-57、DeepMind Lab 和 Google Research Football 上进行评估，并且比当前方法更具成本效益。

Oct, 2019