Dec, 2023

Spreeze: 高吞吐并行强化学习框架

TL;DR我们提出了一种轻量级并行RL框架Spreeze,它能有效利用单个桌面硬件资源接近吞吐极限,通过异步并行化经验采样、网络更新、性能评估和可视化操作,并采用多种高效数据传输技术在进程之间传输各种类型的数据,基于计算能力自动调整并行超参数以进行高效的大批量更新,进一步改进吞吐量,模拟结果表明我们的框架能以一个人的个人桌面计算机每秒15,000次经验采样和370,000次网络更新的帧速率实现,比其他主流并行RL框架高一个数量级,训练时间减少了73%,充分利用单个桌面计算机的硬件资源是实现高效大规模分布式RL训练的基础。