Jun, 2024

迭代长度正则化直接偏好优化:基于提升 7B 语言模型至 GPT-4 水平的案例研究

TL;DR我们引入了迭代的长度正则化 DPO(iLR-DPO)来解决改进的回应质量可能导致冗长的问题,并验证了 iLR-DPO 在与 GPT-4 相媲美的性能上的有效性。