ICMLJun, 2019

学习人类偏好以便推理奖励的可行性探讨

TL;DR我们提出一种基于不可微分计划器的逆强化学习,用于推断从专家提供的演示中学习奖励函数,并与采用特定假设的数学模型相比,我们的方法可以得到更好的奖励推断,同时保持在数据驱动方法和已知人类偏差之间的平衡。