BriefGPT.xyz
Feb, 2024
解释学习得到的奖励函数与反事实轨迹
Explaining Learned Reward Functions with Counterfactual Trajectories
HTML
PDF
Jan Wehner, Frans Oliehoek, Luciano Cavalcante Siebert
TL;DR
通过对比原始和反事实的部分轨迹及其各自接收的奖励,我们提出了反事实轨迹解释(CTEs)来解释强化学习中的奖励函数,证明了CTEs对代理人模型具有信息量,使其预测与未见轨迹上的奖励函数更加相似,并且在不同分布的示例中具有泛化能力,从而为解释学习的奖励函数提供了一种有效的方法。
Abstract
learning rewards
from human behaviour or feedback is a promising approach to aligning AI systems with human values but fails to consistently extract correct reward functions.
interpretability tools
could enable u
→