Feb, 2024

解释学习得到的奖励函数与反事实轨迹

TL;DR通过对比原始和反事实的部分轨迹及其各自接收的奖励,我们提出了反事实轨迹解释(CTEs)来解释强化学习中的奖励函数,证明了CTEs对代理人模型具有信息量,使其预测与未见轨迹上的奖励函数更加相似,并且在不同分布的示例中具有泛化能力,从而为解释学习的奖励函数提供了一种有效的方法。