May, 2024

偏好学习算法不学习偏好排序

TL;DR研究了偏好学习算法在最大似然语言模型中的应用,发现现有模型在偏好数据集上的排名准确率低于 60%,并探讨了 DPO 和 RLHF 目标优化之间的差异。