Dec, 2020

高效同步深度强化学习

TL;DR本文介绍了一种基于高吞吐量、同步深度强化学习的方法(HTS-RL),通过并发地进行学习和推断来提高数据处理效率,同时通过避免陈旧政策和保持完全确定性的异步交互方式来提高稳定性和样本效率。我们通过在 Atari 游戏和 Google 研究足球环境上的实验结果证明,相比同步基准线,HTS-RL 可以加快 2-6 倍的速度,同时相对于最先进的异步方法,在吞吐量上具有竞争优势,始终能够实现更高的平均回合奖励。