Jan, 2023

通过本地规划实现样本高效深度强化学习

TL;DR本文提出了一种名为 “不确定性优先本地规划” 的算法框架,结合模拟器的属性,在每一次数据收集迭代中,以一定概率将环境重置到高度不确定性的已观测状态,这样可以显著提高几个基准强化学习算法在困难的探索任务上的样本成本,并在 Atari 游戏 Montezuma's Revenge 中实现了超人类性能。