Sep, 2023

STARC:一个用于量化奖励函数差异的通用框架

TL;DR为了解决使用强化学习解决任务问题,首先需要将任务的目标形式化为一个奖励函数。然而,对于许多实际任务来说,手动指定一个从不激励不良行为的奖励函数是非常困难的。因此,越来越流行使用奖励学习算法,试图从数据中学习奖励函数。但是,奖励学习的理论基础尚未完善。本文提出了一种解决这个问题的方法,即一类称为STARC(标准化奖励比较)度量的伪度量。我们证明STARC度量对最坏情况遗憾值有上界和下界,这意味着我们的度量是紧密的,并且具有相同属性的任何度量都必须与我们的度量等价。此外,我们还发现了早期作品中提出的奖励度量的一些问题。最后,我们通过实证评估验证了我们的度量的实际效果。STARC度量可以使奖励学习算法的理论和实证分析更加容易和有原则。