Dec, 2023

优化分布式强化学习的反应堆模型与共通语

TL;DR提出了一种基于反应器模型的解决方案,用于分布式强化学习框架,该框架通过强制性的一组actor具有固定的通信模式来优化RL工作负载的映射和协调,提供了一个统一的接口,从OpenAI Gym和Atari环境中生成样本比Ray平均高出1.21倍和11.62倍,将同步并行Q学习的平均训练时间缩短31.2%,并将多Agent RL推断加速了5.12倍。