Sep, 2023
统计拒绝抽样改进偏好优化
Statistical Rejection Sampling Improves Preference Optimization
Tianqi Liu, Yao Zhao, Rishabh Joshi, Misha Khalman, Mohammad Saleh...
TL;DR通过引入一种称为统计拒绝采样优化 (RSO) 的新方法,我们能更准确地从目标最优策略中获取偏好数据,并提出了一个统一框架,从偏好建模的角度增强了 SLiC 和 DPO 中所使用的损失函数。通过在三个不同任务上进行广泛的实验,我们证明了 RSO 在来自大型语言模型 (LLM) 和人类评估者的评估中一致优于 SLiC 和 DPO。