AAAIFeb, 2022

从偏好中推断按字典序排序的奖励

TL;DR本研究提出了一种基于多目标奖励的代理人观察到的喜好的方法,在医疗保健中应用示例,包括癌症治疗和器官移植,通过字典序排序的奖励,学习到更好的决策者偏好的理解,帮助改善政策并在强化学习中使用。