ICLRApr, 2022

基于偏好的奖励学习中因果混淆和奖励误识别问题

TL;DR通过偏好学习奖励的策略是一种定制代理行为的越来越受欢迎的方法,本文通过敏感度和消融分析,发现不能考虑多种因素会导致出乎意料和不良行为,如奖励误认和因果混淆等。