Jun, 2020

样本工厂:使用异步强化学习从像素级别的100000FPS中进行自我中心的三维控制

TL;DR本研究旨在通过优化增强学习算法的效率和资源利用率来解决大规模分布式计算的成本限制问题,通过异步、基于GPU的采样器和异策略校正技术,我们提出了“Sample Factory”,该系统在一个单一机器设置中能够获得高通量的训练,支持自我博弈和基于群体的训练,并应用于多人第一人称射击游戏的训练中。