Jun, 2024
迭代长度正则化直接偏好优化:基于提升 7B 语言模型至 GPT-4 水平的案例研究
Iterative Length-Regularized Direct Preference Optimization: A Case Study on Improving 7B Language Models to GPT-4 Level
Jie Liu, Zhanhui Zhou, Jiaheng Liu, Xingyuan Bu, Chao Yang...
TL;DR我们引入了迭代的长度正则化 DPO(iLR-DPO)来解决改进的回应质量可能导致冗长的问题,并验证了 iLR-DPO 在与 GPT-4 相媲美的性能上的有效性。