Oct, 2024

α-DPO: 自适应奖励边界是直接偏好优化所需的

TL;DR本研究针对大语言模型与人类价值观和意图对齐中存在的计算效率和训练稳定性的问题,提出了一种新的自适应偏好优化算法——α-DPO。通过引入动态奖励边界,α-DPO有效解决了现有方法的局限性,理论与实证结果均表明其在各模型设定下优于传统的直接偏好优化和简单偏好优化,显示出在大语言模型调优中的显著潜力。