Dec, 2023

自由游戏的规律性作为内在奖励

TL;DR通过引入规则性作为一种新颖的奖励信号,我们在内在驱动的强化学习中提出了规则性作为主题。受到儿童发展的启示,我们假设追求结构和秩序有助于引导探索向不受基于不确定性的内在奖励青睐的任务子空间发展。我们提出的规则性作为内在奖励的广义公式,在模型驱动的强化学习中对其进行操作。我们在一个合成环境中展示了追求规则性目标可以产生的各种结构化模式。在一个多目标机器人操作环境中,我们还展示了我们方法的优势。我们将规则性作为自由游戏的一部分,并将其作为与模型的认识不确定性一起的内在奖励来补充。这样做,我们观察到在自由游戏过程中出现了塔和其他规则结构的自主构建,在装配任务的零 - shot 下游任务性能上获得了显著的改进。