May, 2024

SimPO: 简单无参考奖励优化

TL;DRSimPO 是一种简化且更加有效的离线首选优化算法,通过使用序列的平均对数概率作为隐式奖励来改进模型生成并消除参考模型的需求,进一步增强算法的性能。通过与 DPO 及其最新变体在多种训练设置中的比较,SimPO 始终显著优于现有方法,而不会显著增加响应长度。