Sep, 2021

利用大规模并行深度强化学习在几分钟内学会行走

TL;DR本文介绍并研究了一种在单个工作站 GPU 上使用大量并行性实现快速生成真实世界机器人任务策略的训练设置,其中包括不同训练算法组件在大规模并行模式下对最终策略性能和训练时间的影响分析和讨论,同时还介绍了一种新颖的游戏启发课程,适用于数千个模拟机器人的并行训练,并通过将策略转换到真实机器人以验证方法的有效性。