通过摘要引导解码减轻大型视觉-语言模型中的幻觉现象

Oct, 2024

通过摘要引导解码减轻大型视觉-语言模型中的幻觉现象

Mitigating Hallucinations in Large Vision-Language Models via Summary-Guided Decoding

Kyungmin Min, Minbeom Kim, Kang-il Lee, Dongryeol Lee, Kyomin Jung

TL;DR本研究解决了大型视觉-语言模型（LVLM）在生成基于视觉输入的响应时容易出现幻觉的问题。通过引入摘要引导解码（SGD）方法，研究表明该方法能够有效减少模型对语言先验的依赖，显著提升图像信息的利用率，并在对象幻觉基准测试中取得了最先进的表现，展现出更好的精确度与召回率平衡。

Abstract

Large Vision-Language Models (LVLMs) demonstrate impressive capabilities in generating detailed and coherent responses from visual inputs. However, they are prone to generate hallucinations due to an over-reliance on language priors. To address this issue, we investigate the language p

发现论文，激发创造

通过视觉对比解码减轻大型视觉语言模型中的物体幻觉

大视觉语言模型（LVLMs）通过视觉识别和语言理解相结合，生成连贯且与上下文相关的内容，但仍然存在物体幻觉问题。本文介绍一种名为Visual Contrastive Decoding（VCD）的简单且无需训练的方法，通过对比原始和失真的视觉输入产生的输出分布，有效降低统计偏差和单模式先验产生物体幻觉的影响，确保生成的内容与视觉输入密切相关，从而产生上下文准确的输出。实验证明，VCD不需要额外的训练或使用外部工具，在不同的LVLM族群中显著减轻了物体幻觉问题。除减轻物体幻觉问题外，VCD在通用LVLM基准测试中也表现出色，展示了其广泛的适用性。

Nov, 2023

见之于眼：通过CLIP引导解码减轻大型视觉语言模型产生的幻觉

大规模视觉语言模型容易出现对象幻觉问题，本文提出了使用CLIP引导解码的方法来减少对象幻觉，通过增强生成文本与图像之间的视觉联系，有效缓解了多个视觉语言模型家族中的对象幻觉问题，并且保持了文本生成的实用性。

Feb, 2024

IBD：通过图像偏置解码减轻大型视觉语言模型中的幻觉

本研究提出了一种新颖的图像偏置解码技术，以对抗引起幻觉的过度依赖文本的问题，并通过综合统计分析验证了该方法的可靠性，通过自适应调整策略在不同条件下实现了强大灵活的处理能力。实验证明，在不需要额外训练数据且仅有模型参数的微小增加情况下，我们的方法能够显著减少LVLM的幻觉，并增强生成回应的真实性。

Feb, 2024

多模态图像幻觉控制：视觉信息的连接

通过引入M3ID多模态互信息解码方法对先前训练的视觉语言生成模型进行推理时的增强，能够减少幻觉并提高模型的依赖性，从而减少视觉无依据的回答。

Mar, 2024

利用指导对比解码减轻大型视觉语言模型中的幻觉

大规模视觉-语言模型（LVLMs）在从视觉输入中生成上下文详细和连贯的回答方面越来越熟练。然而，它们在多模态决策和开放性生成方面的应用受到幻觉的明显影响，生成的文本不准确地表示了视觉内容。为解决这个问题，本文引入了Instruction Contrastive Decoding（ICD）方法，这是一种旨在减少LVLM推断过程中幻觉的新方法。我们的方法受到了干扰指令明显加剧多模态融合模块幻觉的观察启发。ICD对标准和干扰指令的分布进行对比，从而增加了对齐的不确定性，并有效地从原始分布中减去了幻觉概念。通过对鉴别性基准（POPE和MME）和生成基准（LLaVa-Bench）进行全面实验，我们证明了ICD显著减轻了物体级幻觉和属性级幻觉。此外，我们的方法不仅解决了幻觉问题，还显著提升了LVLM的一般感知和识别能力。

Mar, 2024

自我反思解码：减轻大型视觉-语言模型的幻觉问题

本研究解决了大型视觉-语言模型（LVLMs）中的“幻觉”问题，该问题阻碍了其实际应用。我们提出了一种新的自我反思解码（SID）方法，通过根据先前的视觉和文本令牌评估视觉令牌的重要性，来有效减少幻觉现象，最终提高文本生成的质量和真实性。实验表明，SID在各种指标上生成的文本幻觉更少且质量更高，无需额外知识或计算负担。

Aug, 2024

Hallu-PI：在扰动输入下评估多模态大型语言模型的幻觉

本研究针对多模态大型语言模型（MLLMs）在扰动输入下产生不一致内容的问题，提出了第一个专门评估此类幻觉的基准Hallu-PI。我们的实验表明，这些模型在面对扰动输入时的幻觉现象显著，揭示了MLLMs在处理不同类型幻觉时的严重偏差，从而为后续研究提供了新的方向。

Aug, 2024

HELPD：通过层次反馈学习与视觉增强惩罚解码减轻大规模视觉语言模型的幻觉

本研究解决了大规模视觉语言模型（LVLMs）在视觉与语言任务中出现的多模态幻觉问题，提出了一种新的层次反馈学习框架（HELPD），通过在物体和句子语义层面上提供幻觉反馈来减少幻觉现象。研究表明，该方法在边际训练的情况下能有效降低超过15%的幻觉，并能与任何LVLM无缝集成，显著提升模型的生成文本质量。

Sep, 2024

解析和编辑视觉语言表示以减轻幻觉

本研究解决了视觉语言模型（VLMs）中长期存在的幻觉问题，提出了一种通过线性正交化图像特征与幻觉对象特征的方法。研究表明，针对模型潜在表示进行有针对性的编辑，可以在保持性能的同时，将幻觉减少多达25.7%。该工作深入理解了VLMs的潜在表示，提升了可靠性并启用了新能力，如零-shot分割。

Oct, 2024

调查与缓解预训练视觉语言（CLIP）模型中的物体幻觉

本研究针对预训练视觉语言模型中的物体幻觉问题，尤其是在CLIP模型中进行深入调查，确定幻觉问题不仅仅源于视觉与语言模态之间的交互。我们提出了一种反事实数据增强方法，通过生成多样化的负样本有效缓解幻觉问题，从而提升CLIP模型的表现，并在大型视觉语言模型中显著减轻了物体幻觉现象。

Oct, 2024