Jun, 2024
迭代长度正则化直接偏好优化:基于提升7B语言模型至GPT-4水平的案例研究
Iterative Length-Regularized Direct Preference Optimization: A Case
Study on Improving 7B Language Models to GPT-4 Level
TL;DR我们引入了迭代的长度正则化DPO(iLR-DPO)来解决改进的回应质量可能导致冗长的问题,并验证了iLR-DPO在与GPT-4相媲美的性能上的有效性。