Mar, 2024

sDPO:不要一次性使用您的数据

TL;DR随着大型语言模型的发展,与人类偏好的对齐变得越来越重要。我们提出了逐步 DPO(sDPO),这是最近流行的直接偏好优化(DPO)的扩展。该方法涉及将可用的偏好数据集划分并以逐步方式利用,而非一次性使用。我们证明这种方法在 DPO 训练框架中利用了更精确对齐的参考模型。此外,sDPO 训练出的最终模型具有更好的性能,甚至超过了其他具有更多参数的流行大型语言模型。