Aug, 2024

CLIP-DPO:将视觉语言模型作为修正大型视觉语言模型幻觉的偏好源

TL;DR本研究解决了大型视觉语言模型(LVLM)在真实应用中频繁产生幻觉的问题。提出的CLIP-DPO方法利用对比预训练的视觉语言嵌入模型,通过优化偏好来显著减少幻觉现象且无需依赖付费API或额外训练数据。研究结果表明,该方法在减少幻觉和提升零-shot分类性能方面取得了重要进展,并保持了原有的基准性能。