Oct, 2023

从偏好中学习最佳优势,并将其误认为奖励

TL;DR研究文章探讨了从人类偏好中学习奖励函数的算法,特别是在人类反馈的强化学习中,最近一些工作对假设人类偏好仅基于路径片段内积累的奖励或者部分回报的有效性提出了质疑,并提出了基于遗憾的替代偏好模型。研究结论发现,当将基于部分回报的偏好错误地用作奖励函数时,尽管存在特定的问题,但并不会产生太大的影响,仍然可以产生高度优化的奖励函数,但这种使用方式并不理想,相比之下,采用基于贪心法的最大化奖励函数的方法更为简单和合适。从遗憾偏好模型的角度来看,我们还对将当代大型语言模型与强化学习结合进行模型微调提出了更清晰的解释。总的来说,本文对于解释部分回报偏好模型为什么在实践中效果如此好的原因提供了见解,尽管该模型与人类偏好的方式不太吻合。