Jun, 2024

使用 DPO 隐式奖励进行自助式语言模型训练

TL;DR使用直接偏好优化(DPO)的隐式奖励模型,我们提出了自对齐方法,命名为 DPO 隐式奖励自对齐(DICE),以改进大语言模型的对齐性能和质量。