May, 2023

直接优化偏好:你的语言模型其实是一个暗地里的奖励模型

TL;DR本文提出了一种称为 DPO(Direct Preference Optimization)的算法来解决无监督语言模型中的可控性问题,并在实验中表明,相较于传统的 RLHF 方法,DPO 不仅表现更好,而且更加稳定和简单。