Mar, 2024

Curry-DPO: 借助课程学习和排序偏好增强对齐性

TL;DR使用 Curry-DPO 方法,从容法从易到难地利用构建的多个优先配对数据进行 DPO 训练,相对于标准的单对 DPO 设置,在多个指标上表现出明显的性能提升。