Sep, 2023

Cleanba: 可重复和高效的分布式强化学习平台

TL;DR分布式深度强化学习是利用更多计算资源以在较短时间内训练自主代理的方法。然而,该研究首次表明即使在控制超参数的情况下,典型的 Actor-Learner 架构仍可能存在可复制性问题。为解决此问题,引入了 Cleanba,这是一个新的开源平台,提出了一个高度可复制的架构。Cleanba 实现了高度优化的 PPO 和 IMPALA 的分布式变种。实验结果表明,相比 moolib 和 torchbeast 中的强 IMPALA 基线以及 CleanRL 中的 PPO 基线,Cleanba 的变种可以获得相等或更高的分数。然而,Cleanba 的变种在不同硬件设置下呈现出 1)更短的训练时间和 2)更具可复制性的学习曲线。