BriefGPT.xyz
Ask
alpha
关键词
curry-dpo
搜索结果 - 1
Curry-DPO: 借助课程学习和排序偏好增强对齐性
使用 Curry-DPO 方法,从容法从易到难地利用构建的多个优先配对数据进行 DPO 训练,相对于标准的单对 DPO 设置,在多个指标上表现出明显的性能提升。
PDF
4 months ago
Prev
Next