May, 2024

通过奖励模型精华提高偏好鲁棒性优化

TL;DR通过预训练、直接偏好优化和蒸馏方法,改进了离线对齐过程中偏好数据分布转移的鲁棒性,同时保留了简单的监督学习性质。