通过语言对比解码(LCD)减少大型视觉语言模型中的幻觉
通过对大型视觉语言模型的系统研究,本论文发现大型视觉语言模型容易出现物体幻影问题,并探讨了视觉指导对幻觉的影响,提出了一种改进的评估方法POPE,以更稳定和灵活的方式评估物体幻影问题。
May, 2023
大视觉语言模型(LVLMs)通过视觉识别和语言理解相结合,生成连贯且与上下文相关的内容,但仍然存在物体幻觉问题。本文介绍一种名为Visual Contrastive Decoding(VCD)的简单且无需训练的方法,通过对比原始和失真的视觉输入产生的输出分布,有效降低统计偏差和单模式先验产生物体幻觉的影响,确保生成的内容与视觉输入密切相关,从而产生上下文准确的输出。实验证明,VCD不需要额外的训练或使用外部工具,在不同的LVLM族群中显著减轻了物体幻觉问题。除减轻物体幻觉问题外,VCD在通用LVLM基准测试中也表现出色,展示了其广泛的适用性。
Nov, 2023
通过综合调查,我们分析了大型视觉语言模型(LVLMs)中的幻觉问题,以建立一个概览并为未来的缓解工作提供帮助。调查包括对LVLMs中幻觉的概念澄清、幻觉症状的多样性及存在的挑战、以及评估LVLMs幻觉的基准和方法论的概述。此外,我们深入研究了这些幻觉的根本原因,包括对训练数据和模型组件的认知。我们还对缓解幻觉的现有方法进行了批判性回顾,并讨论了关于LVLMs中幻觉的未解问题和未来研究方向。
Feb, 2024
本研究提出了一种新颖的图像偏置解码技术,以对抗引起幻觉的过度依赖文本的问题,并通过综合统计分析验证了该方法的可靠性,通过自适应调整策略在不同条件下实现了强大灵活的处理能力。实验证明,在不需要额外训练数据且仅有模型参数的微小增加情况下,我们的方法能够显著减少LVLM的幻觉,并增强生成回应的真实性。
Feb, 2024
通过引入HALC这一新的解码算法,LVLMs的对象幻觉问题可以得到缓解,并在多模态场景下展示出令人印象深刻的能力。HALC同时在局部和全局上操作,利用细粒度的优化视觉信息,通过稳健的自动对焦定位机制进行实时修正,并借助专门的波束搜索算法显著减少幻觉现象,同时保持文本生成的质量。此外,HALC作为即插即用的模块可以集成到任何LVLM中,无需额外训练。广泛的实验研究表明,HALC在减少对象幻觉方面的有效性优于现有技术,并在四个基准上取得优异的性能。
Mar, 2024
大规模视觉-语言模型(LVLMs)在从视觉输入中生成上下文详细和连贯的回答方面越来越熟练。然而,它们在多模态决策和开放性生成方面的应用受到幻觉的明显影响,生成的文本不准确地表示了视觉内容。为解决这个问题,本文引入了Instruction Contrastive Decoding(ICD)方法,这是一种旨在减少LVLM推断过程中幻觉的新方法。我们的方法受到了干扰指令明显加剧多模态融合模块幻觉的观察启发。ICD对标准和干扰指令的分布进行对比,从而增加了对齐的不确定性,并有效地从原始分布中减去了幻觉概念。通过对鉴别性基准(POPE和MME)和生成基准(LLaVa-Bench)进行全面实验,我们证明了ICD显著减轻了物体级幻觉和属性级幻觉。此外,我们的方法不仅解决了幻觉问题,还显著提升了LVLM的一般感知和识别能力。
Mar, 2024
本研究针对大型视觉语言模型(LVLMs)在多语言场景下产生幻觉的问题进行了首次探索,指出该现象比英语环境下更为严重。提出了一种双阶段的多语言幻觉去除框架,通过跨语言对齐方法优化模型输出,显著提高了13种语言的准确率,平均提高19.0%。
Aug, 2024
本研究解决了大型视觉-语言模型(LVLMs)中的“幻觉”问题,该问题阻碍了其实际应用。我们提出了一种新的自我反思解码(SID)方法,通过根据先前的视觉和文本令牌评估视觉令牌的重要性,来有效减少幻觉现象,最终提高文本生成的质量和真实性。实验表明,SID在各种指标上生成的文本幻觉更少且质量更高,无需额外知识或计算负担。
Aug, 2024
本研究解决了大规模视觉语言模型(LVLMs)中对象幻觉的问题,强调了现有研究对视觉输入理解不足的片面性,忽视了模型在特征提取和解耦方面的根本缺陷。我们提出了一种新的调优策略PATCH,通过自适应虚拟标记有效提取对象特征,显著提升多个多模态幻觉数据集的表现,旨在提供对LVLMs中幻觉原因的更深刻理解。
Oct, 2024
本研究解决了大型视觉-语言模型(LVLM)在生成基于视觉输入的响应时容易出现幻觉的问题。通过引入摘要引导解码(SGD)方法,研究表明该方法能够有效减少模型对语言先验的依赖,显著提升图像信息的利用率,并在对象幻觉基准测试中取得了最先进的表现,展现出更好的精确度与召回率平衡。
Oct, 2024