Mar, 2024

直接偏好优化中的长度与质量解耦

TL;DR人类反馈强化学习对大型语言模型的成功起到至关重要的作用,然而,它存在一些问题,如偏好中的冗长性。本研究通过研究Direct Preference Optimization(DPO)中的长度问题,提出了一种以简单而原则性的正则化策略控制冗长性的方法。在摘要和对话的数据集上,尽管GPT4评判者存在冗长偏见,但我们在控制长度的情况下获得了高达20%的胜率提升。