Aug, 2023

通过意外记忆激发内在动机

TL;DR我们提出了一种新的计算模型,用于强化学习中的内在奖励,解决了现有基于惊喜驱动的探索的局限性。奖励是惊喜的新颖性,而不是惊喜的规范。我们通过内存网络的检索错误来估计惊喜的新颖性,其中内存存储和重构惊喜。我们的惊喜记忆(Surprise Memory,SM)增加了基于惊喜的内在动机的能力,保持了对激动人心的探索的兴趣,同时减少了对不可预测或嘈杂观察的不必要的吸引力。我们的实验表明,结合各种惊喜预测器的 SM 表现出高效的探索行为,并显著提升了稀疏奖励环境中的最终性能,包括嘈杂的电视、导航和具有挑战性的 Atari 游戏。