Sep, 2024

多类型偏好学习:利用均等偏好的偏好基础强化学习

TL;DR本研究解决了现有偏好基础强化学习(PBRL)方法忽视教师可能选择均等偏好的问题,导致对任务理解的不足。通过引入均等偏好学习任务并提出新方法多类型偏好学习(MTPL),同时从均等偏好和显性偏好中学习,从而提高对教师反馈的理解和反馈效率。实验结果表明,MTPL使PBRL在多个人类反馈任务中表现出更强的学习能力。