ICMLFeb, 2022

多样本目标值用于分布式强化学习的探索

TL;DR本文介绍了一种基于多样本目标值的分布式强化学习算法 E2DC,能够更加准确地学习状态的回报分布,并能够在 UCB 探索的基础上提高性能。作者在一系列连续控制任务上验证了该算法的有效性,并通过可视化和分析展示了学习过程中回报分布的演化。