ConVis:对比解码与幻觉可视化以减轻多模态大型语言模型中的幻觉
大视觉语言模型(LVLMs)通过视觉识别和语言理解相结合,生成连贯且与上下文相关的内容,但仍然存在物体幻觉问题。本文介绍一种名为Visual Contrastive Decoding(VCD)的简单且无需训练的方法,通过对比原始和失真的视觉输入产生的输出分布,有效降低统计偏差和单模式先验产生物体幻觉的影响,确保生成的内容与视觉输入密切相关,从而产生上下文准确的输出。实验证明,VCD不需要额外的训练或使用外部工具,在不同的LVLM族群中显著减轻了物体幻觉问题。除减轻物体幻觉问题外,VCD在通用LVLM基准测试中也表现出色,展示了其广泛的适用性。
Nov, 2023
本研究提出了一种新颖的图像偏置解码技术,以对抗引起幻觉的过度依赖文本的问题,并通过综合统计分析验证了该方法的可靠性,通过自适应调整策略在不同条件下实现了强大灵活的处理能力。实验证明,在不需要额外训练数据且仅有模型参数的微小增加情况下,我们的方法能够显著减少LVLM的幻觉,并增强生成回应的真实性。
Feb, 2024
通过提出Pensieve方法,研究发现多模态大语言模型在处理视觉幻觉时会同时支持准确和不存在的内容,Pensieve方法通过在推理中回溯相关图像作为参考,并将其与测试图像进行比较,从而减少视觉幻觉现象,并提升图像描述的细节和特定性。
Mar, 2024
通过准确定位和惩罚产生错觉的标记,ESREAL提出了一种新颖的无监督学习框架,以抑制视觉-语言模型在生成长字幕时的幻觉,通过分析图像本身的信号实现减少错觉的目标。
Mar, 2024
大规模视觉-语言模型(LVLMs)在从视觉输入中生成上下文详细和连贯的回答方面越来越熟练。然而,它们在多模态决策和开放性生成方面的应用受到幻觉的明显影响,生成的文本不准确地表示了视觉内容。为解决这个问题,本文引入了Instruction Contrastive Decoding(ICD)方法,这是一种旨在减少LVLM推断过程中幻觉的新方法。我们的方法受到了干扰指令明显加剧多模态融合模块幻觉的观察启发。ICD对标准和干扰指令的分布进行对比,从而增加了对齐的不确定性,并有效地从原始分布中减去了幻觉概念。通过对鉴别性基准(POPE和MME)和生成基准(LLaVa-Bench)进行全面实验,我们证明了ICD显著减轻了物体级幻觉和属性级幻觉。此外,我们的方法不仅解决了幻觉问题,还显著提升了LVLM的一般感知和识别能力。
Mar, 2024
利用Contrary Bradley-Terry Model进行优化,引入Hallucination-Induced Optimization策略,提高Large Visual Language Models处理视觉对比解码中的幻觉问题的效果。
May, 2024
最近,大型视觉语言模型(LVLMs)的前沿发展彻底改变了机器基于视觉输入理解和生成文本响应的方式。然而,尽管这些模型的能力令人印象深刻,它们经常产生与视觉信息不符的“幻觉性”输出,给可靠性和可信度带来了挑战。当前的方法(如对比解码)在解决这些问题方面取得了一些进展,通过将生成的标记的原始概率分布与扭曲的对应物进行对比,然而生成视觉真实的输出仍然是一个挑战。在本研究中,我们将注意力转移到相反的方向上:什么能够作为原始概率分布的补充增强?我们提出了一种名为RITUAL的简单且无需训练的方法,以增强LVLMs对幻觉的鲁棒性。我们的方法利用随机图像变换作为原始概率分布的补充,旨在通过丰富模型对不同视觉情景的暴露来减少幻觉性视觉解释的可能性。我们的实证结果表明,尽管单独使用转换图像会最初降低性能,但有策略地实现这些转换确实可以作为有效的补充。值得注意的是,我们的方法与当前的对比解码方法兼容,并且不需要外部模型或昂贵的自反馈机制,因此具有实际应用价值。在实验中,RITUAL在多个物体幻觉基准数据集(包括POPE、CHAIR和MME)上显著优于现有的对比解码方法。
May, 2024
本文介绍了一种基于对比的解码方法 CODE,它利用自生成的描述作为对比参考,以解决大型多模式模型 (LMMs) 中幻觉问题,并显著减少幻觉并提高跨模态一致性。
Jun, 2024
本研究解决了大型视觉-语言模型(LVLM)在生成基于视觉输入的响应时容易出现幻觉的问题。通过引入摘要引导解码(SGD)方法,研究表明该方法能够有效减少模型对语言先验的依赖,显著提升图像信息的利用率,并在对象幻觉基准测试中取得了最先进的表现,展现出更好的精确度与召回率平衡。
Oct, 2024