Apr, 2024

滤波直接优化偏好

TL;DR利用人类反馈进行强化学习在与人类倾向对齐的语言模型中起着关键作用。研究表明文本质量对于基于 Direct Preference Optimization (DPO) 进行优化的模型性能影响较大,而本文提出了一种扩展的 DPO 方法,即 filtered direct preference optimization (fDPO),通过训练奖励模型来监控首选数据集中的文本质量,从而改善最终模型的性能。