Apr, 2024
滤波直接优化偏好
Filtered Direct Preference Optimization
Tetsuro Morimura, Mitsuki Sakamoto, Yuu Jinnai, Kenshi Abe, Kaito Air
TL;DR利用人类反馈进行强化学习在与人类倾向对齐的语言模型中起着关键作用。研究表明文本质量对于基于 Direct Preference Optimization (DPO) 进行优化的模型性能影响较大,而本文提出了一种扩展的 DPO 方法,即 filtered direct preference optimization (fDPO),通过训练奖励模型来监控首选数据集中的文本质量,从而改善最终模型的性能。