Feb, 2024
LiPO: 基于学习排序的列表偏好优化
LiPO: Listwise Preference Optimization through Learning-to-Rank
Tianqi Liu, Zhen Qin, Junru Wu, Jiaming Shen, Misha Khalman...
TL;DR使用 Listwise Preference Optimization 框架对语言模型进行排名问题的对齐,将 LiPO-λ 方法与传统的 DPO 和 SLiC 方法相比,在两项偏好对齐任务中明显表现更好。