Feb, 2024

LiPO: 基于学习排序的列表偏好优化

TL;DR使用 Listwise Preference Optimization 框架对语言模型进行排名问题的对齐,将 LiPO-λ 方法与传统的 DPO 和 SLiC 方法相比,在两项偏好对齐任务中明显表现更好。