Oct, 2023

GEAR: 一种面向大型强化学习模型的基于GPU的体验回放系统

TL;DR该研究介绍了一个名为GEAR的分布式、以GPU为中心的经验回放系统,旨在使用大型序列模型(如transformers)进行可扩展的强化学习。GEAR通过在GPU服务器上管理轨迹数据的内存资源来优化内存效率,并通过促进分散的GPU设备加速各种轨迹选择策略来绕过计算瓶颈。在使用最先进的大型强化学习模型进行训练时,集群实验表明,GEAR的性能水平最高可达到Reverb的6倍。GEAR在此https URL上开源。