Feb, 2024

基于潜力的奖励塑造对内在动机的影响

TL;DR最近出现了大量的内在动机(IM)奖励塑造方法来学习复杂和稀疏奖励的环境。在这些方法中,往往会无意中改变环境中的最优策略集,导致次优行为。我们提出了一个扩展的潜在基于奖励塑造(PBRS)方法,我们证明它在比之前更一般的函数集合下保留了最优策略集。同时,我们还提出了一种名为 “基于潜在的内在动机”(PBIM)的方法,将 IM 奖励转化为基于潜在的形式,而无需改变最优策略集。在 MiniGrid DoorKey 和 Cliff Walking 环境中的测试中,我们证明 PBIM 成功防止了智能体收敛到次优策略并且可以加速训练。