Aug, 2024

基于偏好的离线强化学习中的列表奖励估计

TL;DR本研究解决了在偏好强化学习中如何精确设计奖励函数的问题,特别是与人类意图的对齐。我们提出了一种新的离线偏好强化学习方法——列表奖励估计(LiRE),通过构建轨迹的排序列表来利用二阶偏好信息。实验结果表明,LiRE超越了现有的最先进基线,在反馈预算有限的情况下仍表现出色,并在反馈数量和噪声方面展现出鲁棒性。