Jun, 2024

mDPO: 多模态大型语言模型的条件偏好优化

TL;DR通过比较性实验,我们识别出多模态偏好优化中的无条件偏好问题,并提出 mDPO,一种多模态 DPO 目标,通过优化图像偏好来避免只优化语言偏好。同时引入一种奖励锚点,强制奖励对于选择的回答是正面的,从而避免相对偏好优化的内在问题。在两种不同规模的多模态 LLM 和三个广泛使用的基准测试中进行的实验表明,mDPO 在处理多模态偏好优化的无条件偏好问题上是有效的,并在模型性能方面取得了显著改进,尤其是在减少幻觉方面。