May, 2024

三元偏好优化:在单步优化中用更少的数据实现更好的对齐

TL;DR引入 Triple Preference Optimization (TPO) 方法,使用较少数据直接对大型语言模型进行优化,不需要独立的 Supervised Fine-Tuned 步骤,并在多个评估指标上显示出超过其他方法的性能提升。