Mar, 2025
RePO: 基于ReLU的偏好优化
RePO: ReLU-based Preference Optimization
TL;DR本研究解决了将大型语言模型与人类偏好对齐过程中面临的计算和稳定性挑战。提出了一种新的ReLU-based Preference Optimization (RePO)算法,简化了调参过程,通过保留SimPO的无参考边界并去除复杂的超参数,显著提升了模型性能。实验证明,RePO在多个基础模型上超越了现有方法DPO和SimPO,证明了其在优化极限情况下的有效性。