从像素到标记：重新审视大规模视觉语言模型中的对象幻觉

Oct, 2024

从像素到标记：重新审视大规模视觉语言模型中的对象幻觉

From Pixels to Tokens: Revisiting Object Hallucinations in Large Vision-Language Models

Yuying Shang, Xinyi Zeng, Yutao Zhu, Xiao Yang, Zhengwei Fang...

TL;DR本研究解决了大规模视觉语言模型（LVLMs）中对象幻觉的问题，强调了现有研究对视觉输入理解不足的片面性，忽视了模型在特征提取和解耦方面的根本缺陷。我们提出了一种新的调优策略PATCH，通过自适应虚拟标记有效提取对象特征，显著提升多个多模态幻觉数据集的表现，旨在提供对LVLMs中幻觉原因的更深刻理解。

Abstract

Hallucinations in large Vision-Language Models (LVLMs) are a significant challenge, i.e., generating objects that are not presented in the visual input, which impairs their reliability. Recent studies often attri

发现论文，激发创造

评估大规模视觉语言模型中的物体错构

通过对大型视觉语言模型的系统研究，本论文发现大型视觉语言模型容易出现物体幻影问题，并探讨了视觉指导对幻觉的影响，提出了一种改进的评估方法POPE，以更稳定和灵活的方式评估物体幻影问题。

May, 2023

用视觉监督减轻视觉-语言模型中的虚构问题

通过引入更详细的视觉注释和更具区分性的视觉模型来提高大型视觉语言模型的训练，使其能够生成更精确的回答，减少幻觉；此外，提出了新的评估基准 RAH-Bench 分为三种不同的幻觉类型，与原始 LLaVA 相比，我们的方法在该基准下实现了 +8.4% 的改进，并在其他模型上取得了广泛的性能提升。

Nov, 2023

通过视觉对比解码减轻大型视觉语言模型中的物体幻觉

大视觉语言模型（LVLMs）通过视觉识别和语言理解相结合，生成连贯且与上下文相关的内容，但仍然存在物体幻觉问题。本文介绍一种名为Visual Contrastive Decoding（VCD）的简单且无需训练的方法，通过对比原始和失真的视觉输入产生的输出分布，有效降低统计偏差和单模式先验产生物体幻觉的影响，确保生成的内容与视觉输入密切相关，从而产生上下文准确的输出。实验证明，VCD不需要额外的训练或使用外部工具，在不同的LVLM族群中显著减轻了物体幻觉问题。除减轻物体幻觉问题外，VCD在通用LVLM基准测试中也表现出色，展示了其广泛的适用性。

Nov, 2023

大型视觉语言模型中的幻觉调查

通过综合调查，我们分析了大型视觉语言模型（LVLMs）中的幻觉问题，以建立一个概览并为未来的缓解工作提供帮助。调查包括对LVLMs中幻觉的概念澄清、幻觉症状的多样性及存在的挑战、以及评估LVLMs幻觉的基准和方法论的概述。此外，我们深入研究了这些幻觉的根本原因，包括对训练数据和模型组件的认知。我们还对缓解幻觉的现有方法进行了批判性回顾，并讨论了关于LVLMs中幻觉的未解问题和未来研究方向。

Feb, 2024

利用指导对比解码减轻大型视觉语言模型中的幻觉

大规模视觉-语言模型（LVLMs）在从视觉输入中生成上下文详细和连贯的回答方面越来越熟练。然而，它们在多模态决策和开放性生成方面的应用受到幻觉的明显影响，生成的文本不准确地表示了视觉内容。为解决这个问题，本文引入了Instruction Contrastive Decoding（ICD）方法，这是一种旨在减少LVLM推断过程中幻觉的新方法。我们的方法受到了干扰指令明显加剧多模态融合模块幻觉的观察启发。ICD对标准和干扰指令的分布进行对比，从而增加了对齐的不确定性，并有效地从原始分布中减去了幻觉概念。通过对鉴别性基准（POPE和MME）和生成基准（LLaVa-Bench）进行全面实验，我们证明了ICD显著减轻了物体级幻觉和属性级幻觉。此外，我们的方法不仅解决了幻觉问题，还显著提升了LVLM的一般感知和识别能力。

Mar, 2024

AGLA：借助全局和局部注意力组合，缓解大型视觉语言模型中的物体幻觉

通过研究大型视觉语言模型（LVLMs），本论文确定了对象幻觉的一个根本原因是对辨别性局部图像特征的注意力不足。基于此，我们提出了全局和局部注意力组装（AGLA）方法，该方法通过同时探索用于响应生成的全局特征和用于视觉辨别的局部特征，从而减轻对象幻觉。大量实验证明，AGLA方法能够一致地减轻对象幻觉并提高LVLM在各种辨别性和生成性基准任务中的感知能力。

Jun, 2024

Hallu-PI：在扰动输入下评估多模态大型语言模型的幻觉

本研究针对多模态大型语言模型（MLLMs）在扰动输入下产生不一致内容的问题，提出了第一个专门评估此类幻觉的基准Hallu-PI。我们的实验表明，这些模型在面对扰动输入时的幻觉现象显著，揭示了MLLMs在处理不同类型幻觉时的严重偏差，从而为后续研究提供了新的方向。

Aug, 2024

通过语言对比解码（LCD）减少大型视觉语言模型中的幻觉

本研究解决了大型视觉语言模型（LVLMs）在处理图像和文本输入时出现的对象幻觉问题，提出了一种新的语言对比解码（LCD）算法。该算法利用大型语言模型的分布置信度调整LVLM输出，显著减少了幻觉现象，带来了高达4%的POPE F1分数提升和36%的CHAIR分数降低，表明了其在提高模型性能方面的潜力。

Aug, 2024

解析和编辑视觉语言表示以减轻幻觉

本研究解决了视觉语言模型（VLMs）中长期存在的幻觉问题，提出了一种通过线性正交化图像特征与幻觉对象特征的方法。研究表明，针对模型潜在表示进行有针对性的编辑，可以在保持性能的同时，将幻觉减少多达25.7%。该工作深入理解了VLMs的潜在表示，提升了可靠性并启用了新能力，如零-shot分割。

Oct, 2024

通过摘要引导解码减轻大型视觉-语言模型中的幻觉现象

本研究解决了大型视觉-语言模型（LVLM）在生成基于视觉输入的响应时容易出现幻觉的问题。通过引入摘要引导解码（SGD）方法，研究表明该方法能够有效减少模型对语言先验的依赖，显著提升图像信息的利用率，并在对象幻觉基准测试中取得了最先进的表现，展现出更好的精确度与召回率平衡。

Oct, 2024