ICLRNov, 2019

使用剪切目标网络的重要性加权异步架构

TL;DR通过使用 IMPACT 算法,可以在异步分布式强化学习环境下,提高样本奖励并同时实现高样本利用率与快速训练速度。