Mar, 2024

可证明的鲁棒 DPO:将语言模型与噪声反馈对齐

TL;DR通过引入在随机偏好翻转情况下进行策略优化的总体框架,我们的实验表明将 rDPO 与其他从业者提出的启发式算法相比,可以显著降低偏好标签噪音对学习策略的影响。