Oct, 2024

调查与缓解预训练视觉语言(CLIP)模型中的物体幻觉

TL;DR本研究针对预训练视觉语言模型中的物体幻觉问题,尤其是在CLIP模型中进行深入调查,确定幻觉问题不仅仅源于视觉与语言模态之间的交互。我们提出了一种反事实数据增强方法,通过生成多样化的负样本有效缓解幻觉问题,从而提升CLIP模型的表现,并在大型视觉语言模型中显著减轻了物体幻觉现象。