Aug, 2023

分布式深度探索的策略包

TL;DR在复杂环境中进行高效的探索是强化学习中的一大挑战。本研究通过维护一组返回分布估计器副本的方法,即多策略集成(Bag of Policies),实现分布式强化学习的深度探索,提高学习和行为的多样性,并在 ALE Atari 游戏上的实验结果中证明了其在学习过程中的鲁棒性和速度。