Jun, 2024

迭代长度正则化直接偏好优化:基于提升7B语言模型至GPT-4水平的案例研究

TL;DR我们引入了迭代的长度正则化DPO(iLR-DPO)来解决改进的回应质量可能导致冗长的问题,并验证了iLR-DPO在与GPT-4相媲美的性能上的有效性。