解析和编辑视觉语言表示以减轻幻觉
该论文系统研究了视觉语言预训练模型中对象幻觉问题,从近期最先进的VLP模型,VLP中不同类型的图像编码方式,以及VLP目标的不同方面入手,提出了一种名为ObjMLM的简单而有效的VLP损失,能够减少对象幻觉。实验表明,ObjMLM可以将对象幻觉降低多达17.4%。
Oct, 2022
通过引入更详细的视觉注释和更具区分性的视觉模型来提高大型视觉语言模型的训练,使其能够生成更精确的回答,减少幻觉;此外,提出了新的评估基准 RAH-Bench 分为三种不同的幻觉类型,与原始 LLaVA 相比,我们的方法在该基准下实现了 +8.4% 的改进,并在其他模型上取得了广泛的性能提升。
Nov, 2023
大视觉语言模型(LVLMs)通过视觉识别和语言理解相结合,生成连贯且与上下文相关的内容,但仍然存在物体幻觉问题。本文介绍一种名为Visual Contrastive Decoding(VCD)的简单且无需训练的方法,通过对比原始和失真的视觉输入产生的输出分布,有效降低统计偏差和单模式先验产生物体幻觉的影响,确保生成的内容与视觉输入密切相关,从而产生上下文准确的输出。实验证明,VCD不需要额外的训练或使用外部工具,在不同的LVLM族群中显著减轻了物体幻觉问题。除减轻物体幻觉问题外,VCD在通用LVLM基准测试中也表现出色,展示了其广泛的适用性。
Nov, 2023
通过分析 Intrinsic Vision-Language Hallucination(IVL-Hallu)问题的不同类型、原因和反映,我们提出了几种新颖的 IVL-Hallu 任务并将其分为四种类型:物体幻觉、属性幻觉、多模态冲突幻觉和反对常识幻觉。在这个研究中,我们提出了一个更具挑战性的基准测试来评估和探索 IVL-Hallu,以便为未来的 IVL-Hallu 和 LVLM 研究提供帮助。
Mar, 2024
通过准确定位和惩罚产生错觉的标记,ESREAL提出了一种新颖的无监督学习框架,以抑制视觉-语言模型在生成长字幕时的幻觉,通过分析图像本身的信号实现减少错觉的目标。
Mar, 2024
大规模视觉-语言模型(LVLMs)在从视觉输入中生成上下文详细和连贯的回答方面越来越熟练。然而,它们在多模态决策和开放性生成方面的应用受到幻觉的明显影响,生成的文本不准确地表示了视觉内容。为解决这个问题,本文引入了Instruction Contrastive Decoding(ICD)方法,这是一种旨在减少LVLM推断过程中幻觉的新方法。我们的方法受到了干扰指令明显加剧多模态融合模块幻觉的观察启发。ICD对标准和干扰指令的分布进行对比,从而增加了对齐的不确定性,并有效地从原始分布中减去了幻觉概念。通过对鉴别性基准(POPE和MME)和生成基准(LLaVa-Bench)进行全面实验,我们证明了ICD显著减轻了物体级幻觉和属性级幻觉。此外,我们的方法不仅解决了幻觉问题,还显著提升了LVLM的一般感知和识别能力。
Mar, 2024
本研究针对多模态大型语言模型(MLLMs)在扰动输入下产生不一致内容的问题,提出了第一个专门评估此类幻觉的基准Hallu-PI。我们的实验表明,这些模型在面对扰动输入时的幻觉现象显著,揭示了MLLMs在处理不同类型幻觉时的严重偏差,从而为后续研究提供了新的方向。
Aug, 2024
本研究针对预训练视觉语言模型中的物体幻觉问题,尤其是在CLIP模型中进行深入调查,确定幻觉问题不仅仅源于视觉与语言模态之间的交互。我们提出了一种反事实数据增强方法,通过生成多样化的负样本有效缓解幻觉问题,从而提升CLIP模型的表现,并在大型视觉语言模型中显著减轻了物体幻觉现象。
Oct, 2024
本研究解决了大规模视觉语言模型(LVLMs)中对象幻觉的问题,强调了现有研究对视觉输入理解不足的片面性,忽视了模型在特征提取和解耦方面的根本缺陷。我们提出了一种新的调优策略PATCH,通过自适应虚拟标记有效提取对象特征,显著提升多个多模态幻觉数据集的表现,旨在提供对LVLMs中幻觉原因的更深刻理解。
Oct, 2024
本研究解决了大型视觉-语言模型(LVLM)在生成基于视觉输入的响应时容易出现幻觉的问题。通过引入摘要引导解码(SGD)方法,研究表明该方法能够有效减少模型对语言先验的依赖,显著提升图像信息的利用率,并在对象幻觉基准测试中取得了最先进的表现,展现出更好的精确度与召回率平衡。
Oct, 2024