Aug, 2023

超越想象:通过世界模型最大化情节可达性

TL;DR本文介绍了一种名为 GoBI(Go Beyond Imagination)的新型内在奖励设计,结合传统的终身新颖性动机和以步进可达性扩展为目标设计的情节内在奖励,通过应用学习到的世界模型生成具有随机动作的预测未来状态,从而给予那些在情节记忆中没有独特预测的状态高内在奖励,该方法在 12 个最具挑战性的 Minigrid 导航任务上大大优于之前最先进的方法,并提高了 DeepMind Control Suite 中运动任务的样本效率。