Sep, 2024

隐式奖励模型的有限泛化能力研究

TL;DR本研究探讨了直接偏好优化(DPO)所产生的隐式奖励模型DPORM与显式奖励模型(EXRM)在区分人类偏好方面的表现差异。尽管DPORM能够很好地拟合训练数据集,但结果表明其在验证数据集上泛化能力较差,尤其是在存在分布转变的情况下,这一发现强调了在迭代DPO方法中整合显式奖励模型的重要性。