通过视觉对比解码减轻大型视觉语言模型中的物体幻觉

Nov, 2023

通过视觉对比解码减轻大型视觉语言模型中的物体幻觉

Mitigating Object Hallucinations in Large Vision-Language Models through Visual Contrastive Decoding

Sicong Leng, Hang Zhang, Guanzheng Chen, Xin Li, Shijian Lu...

TL;DR大视觉语言模型（LVLMs）通过视觉识别和语言理解相结合，生成连贯且与上下文相关的内容，但仍然存在物体幻觉问题。本文介绍一种名为 Visual Contrastive Decoding（VCD）的简单且无需训练的方法，通过对比原始和失真的视觉输入产生的输出分布，有效降低统计偏差和单模式先验产生物体幻觉的影响，确保生成的内容与视觉输入密切相关，从而产生上下文准确的输出。实验证明，VCD 不需要额外的训练或使用外部工具，在不同的 LVLM 族群中显著减轻了物体幻觉问题。除减轻物体幻觉问题外，VCD 在通用 LVLM 基准测试中也表现出色，展示了其广泛的适用性。

Abstract

large vision-language models (LVLMs) have advanced considerably, intertwining visual recognition and language understanding to generate content that is not only coherent but also contextually attuned. Despite their success, LVLMs still suffer from the issue of →

large vision-language models object hallucinations visual contrastive decoding content generation statistical bias

发现论文，激发创造

利用指导对比解码减轻大型视觉语言模型中的幻觉

大规模视觉 - 语言模型（LVLMs）在从视觉输入中生成上下文详细和连贯的回答方面越来越熟练。然而，它们在多模态决策和开放性生成方面的应用受到幻觉的明显影响，生成的文本不准确地表示了视觉内容。为解决这个问题，本文引入了 Instruction Contrastive Decoding（ICD）方法，这是一种旨在减少 LVLM 推断过程中幻觉的新方法。我们的方法受到了干扰指令明显加剧多模态融合模块幻觉的观察启发。ICD 对标准和干扰指令的分布进行对比，从而增加了对齐的不确定性，并有效地从原始分布中减去了幻觉概念。通过对鉴别性基准（POPE 和 MME）和生成基准（LLaVa-Bench）进行全面实验，我们证明了 ICD 显著减轻了物体级幻觉和属性级幻觉。此外，我们的方法不仅解决了幻觉问题，还显著提升了 LVLM 的一般感知和识别能力。

Mar, 2024

通过诱导式优化减轻大型视觉语言模型中的幻觉

利用 Contrary Bradley-Terry Model 进行优化，引入 Hallucination-Induced Optimization 策略，提高 Large Visual Language Models 处理视觉对比解码中的幻觉问题的效果。

May, 2024

VDGD：通过弥合视觉感知差距来减轻认知提示中的低可信度语言幻觉

对大型视觉语言模型（LVLMs）的幻觉问题进行了深入分析，发现了几个新的洞察力，提出了一种简单、稳健和无需训练的方法（VDGD）来减轻幻觉，实验结果表明 VDGD 在减少幻觉方面显著优于其他基线方法。

May, 2024

见之于眼：通过 CLIP 引导解码减轻大型视觉语言模型产生的幻觉

大规模视觉语言模型容易出现对象幻觉问题，本文提出了使用 CLIP 引导解码的方法来减少对象幻觉，通过增强生成文本与图像之间的视觉联系，有效缓解了多个视觉语言模型家族中的对象幻觉问题，并且保持了文本生成的实用性。

Feb, 2024

HALC: 自适应焦点 - 对比度解码的目标幻觉减少

通过引入 HALC 这一新的解码算法，LVLMs 的对象幻觉问题可以得到缓解，并在多模态场景下展示出令人印象深刻的能力。HALC 同时在局部和全局上操作，利用细粒度的优化视觉信息，通过稳健的自动对焦定位机制进行实时修正，并借助专门的波束搜索算法显著减少幻觉现象，同时保持文本生成的质量。此外，HALC 作为即插即用的模块可以集成到任何 LVLM 中，无需额外训练。广泛的实验研究表明，HALC 在减少对象幻觉方面的有效性优于现有技术，并在四个基准上取得优异的性能。

Mar, 2024

IBD：通过图像偏置解码减轻大型视觉语言模型中的幻觉

本研究提出了一种新颖的图像偏置解码技术，以对抗引起幻觉的过度依赖文本的问题，并通过综合统计分析验证了该方法的可靠性，通过自适应调整策略在不同条件下实现了强大灵活的处理能力。实验证明，在不需要额外训练数据且仅有模型参数的微小增加情况下，我们的方法能够显著减少 LVLM 的幻觉，并增强生成回应的真实性。

Feb, 2024

用视觉监督减轻视觉 - 语言模型中的虚构问题

通过引入更详细的视觉注释和更具区分性的视觉模型来提高大型视觉语言模型的训练，使其能够生成更精确的回答，减少幻觉；此外，提出了新的评估基准 RAH-Bench 分为三种不同的幻觉类型，与原始 LLaVA 相比，我们的方法在该基准下实现了 +8.4% 的改进，并在其他模型上取得了广泛的性能提升。

Nov, 2023

基于 LVLM 的图像描述中，更多的细节总是引入更多的幻觉吗？

我们提出了一种新的解码策略，名为差异化束搜索解码（DBD），以及一组可靠的评估指标：CLIP-Precision、CLIP-Recall 和 CLIP-F1，用于图像描述。我们的方法在 Visual Genome 数据集上进行了广泛实验证明了其有效性，能够生成细节丰富的描述，并保持低的幻觉水平。

Jun, 2024

通过数据增强对比调整减轻物体幻觉

本文主要研究了多模式大型语言模型（MLLMs）在生成文本时存在的对象虚构问题，并提出了一种对抗调整的方法来减轻虚构现象，其中通过选择性地改变真实信息来通过生成性数据增强产生虚构的标记，从而提高真实标记相对于虚构标记的相对可能性，实验证实了这种方法在减轻虚构现象上的有效性，而且这种方法简单、快速，需要很少的训练且在推理过程中没有额外的开销。

May, 2024

可信并非忠实：探究视觉 - 语言预训练中对象幻觉问题

该论文系统研究了视觉语言预训练模型中对象幻觉问题，从近期最先进的 VLP 模型，VLP 中不同类型的图像编码方式，以及 VLP 目标的不同方面入手，提出了一种名为 ObjMLM 的简单而有效的 VLP 损失，能够减少对象幻觉。实验表明，ObjMLM 可以将对象幻觉降低多达 17.4%。

Oct, 2022