ICMLFeb, 2022
多样本目标值用于分布式强化学习的探索
Exploration with Multi-Sample Target Values for Distributional Reinforcement Learning
Michael Teng, Michiel van de Panne, Frank Wood
TL;DR本文介绍了一种基于多样本目标值的分布式强化学习算法 E2DC,能够更加准确地学习状态的回报分布,并能够在 UCB 探索的基础上提高性能。作者在一系列连续控制任务上验证了该算法的有效性,并通过可视化和分析展示了学习过程中回报分布的演化。