基于 LVLM 的图像描述中，更多的细节总是引入更多的幻觉吗？

Jun, 2024

基于 LVLM 的图像描述中，更多的细节总是引入更多的幻觉吗？

Do More Details Always Introduce More Hallucinations in LVLM-based Image Captioning?

Mingqian Feng, Yunlong Tang, Zeliang Zhang, Chenliang Xu

TL;DR我们提出了一种新的解码策略，名为差异化束搜索解码（DBD），以及一组可靠的评估指标：CLIP-Precision、CLIP-Recall 和 CLIP-F1，用于图像描述。我们的方法在 Visual Genome 数据集上进行了广泛实验证明了其有效性，能够生成细节丰富的描述，并保持低的幻觉水平。

Abstract

Large Vision-Language Models (LVLMs) excel in integrating visual and linguistic contexts to produce detailed content, facilitating applications such as image captioning. However, using LVLMs to generate descriptions often faces the challenge of →

large vision-language models (lvlms)object hallucination differentiated beam decoding (dbd)evaluation metrics image captioning

发现论文，激发创造

IBD：通过图像偏置解码减轻大型视觉语言模型中的幻觉

本研究提出了一种新颖的图像偏置解码技术，以对抗引起幻觉的过度依赖文本的问题，并通过综合统计分析验证了该方法的可靠性，通过自适应调整策略在不同条件下实现了强大灵活的处理能力。实验证明，在不需要额外训练数据且仅有模型参数的微小增加情况下，我们的方法能够显著减少 LVLM 的幻觉，并增强生成回应的真实性。

Feb, 2024

见之于眼：通过 CLIP 引导解码减轻大型视觉语言模型产生的幻觉

大规模视觉语言模型容易出现对象幻觉问题，本文提出了使用 CLIP 引导解码的方法来减少对象幻觉，通过增强生成文本与图像之间的视觉联系，有效缓解了多个视觉语言模型家族中的对象幻觉问题，并且保持了文本生成的实用性。

Feb, 2024

通过视觉对比解码减轻大型视觉语言模型中的物体幻觉

大视觉语言模型（LVLMs）通过视觉识别和语言理解相结合，生成连贯且与上下文相关的内容，但仍然存在物体幻觉问题。本文介绍一种名为 Visual Contrastive Decoding（VCD）的简单且无需训练的方法，通过对比原始和失真的视觉输入产生的输出分布，有效降低统计偏差和单模式先验产生物体幻觉的影响，确保生成的内容与视觉输入密切相关，从而产生上下文准确的输出。实验证明，VCD 不需要额外的训练或使用外部工具，在不同的 LVLM 族群中显著减轻了物体幻觉问题。除减轻物体幻觉问题外，VCD 在通用 LVLM 基准测试中也表现出色，展示了其广泛的适用性。

Nov, 2023

大型视觉语言模型中的幻觉检测与预防

介绍 M-HalDetect，一个用于训练和评估幻觉检测和预防模型的多模态幻觉检测数据集。使用 Fine-grained Direct Preference Optimization 和拒绝抽样方法，成功减少了幻觉率，为视觉问题回答任务提供了重要的改进。

Aug, 2023

利用指导对比解码减轻大型视觉语言模型中的幻觉

大规模视觉 - 语言模型（LVLMs）在从视觉输入中生成上下文详细和连贯的回答方面越来越熟练。然而，它们在多模态决策和开放性生成方面的应用受到幻觉的明显影响，生成的文本不准确地表示了视觉内容。为解决这个问题，本文引入了 Instruction Contrastive Decoding（ICD）方法，这是一种旨在减少 LVLM 推断过程中幻觉的新方法。我们的方法受到了干扰指令明显加剧多模态融合模块幻觉的观察启发。ICD 对标准和干扰指令的分布进行对比，从而增加了对齐的不确定性，并有效地从原始分布中减去了幻觉概念。通过对鉴别性基准（POPE 和 MME）和生成基准（LLaVa-Bench）进行全面实验，我们证明了 ICD 显著减轻了物体级幻觉和属性级幻觉。此外，我们的方法不仅解决了幻觉问题，还显著提升了 LVLM 的一般感知和识别能力。

Mar, 2024

用视觉监督减轻视觉 - 语言模型中的虚构问题

通过引入更详细的视觉注释和更具区分性的视觉模型来提高大型视觉语言模型的训练，使其能够生成更精确的回答，减少幻觉；此外，提出了新的评估基准 RAH-Bench 分为三种不同的幻觉类型，与原始 LLaVA 相比，我们的方法在该基准下实现了 +8.4% 的改进，并在其他模型上取得了广泛的性能提升。

Nov, 2023

VDGD：通过弥合视觉感知差距来减轻认知提示中的低可信度语言幻觉

对大型视觉语言模型（LVLMs）的幻觉问题进行了深入分析，发现了几个新的洞察力，提出了一种简单、稳健和无需训练的方法（VDGD）来减轻幻觉，实验结果表明 VDGD 在减少幻觉方面显著优于其他基线方法。

May, 2024

通过诱导式优化减轻大型视觉语言模型中的幻觉

利用 Contrary Bradley-Terry Model 进行优化，引入 Hallucination-Induced Optimization 策略，提高 Large Visual Language Models 处理视觉对比解码中的幻觉问题的效果。

May, 2024

大型视觉语言模型中的幻觉调查

通过综合调查，我们分析了大型视觉语言模型（LVLMs）中的幻觉问题，以建立一个概览并为未来的缓解工作提供帮助。调查包括对 LVLMs 中幻觉的概念澄清、幻觉症状的多样性及存在的挑战、以及评估 LVLMs 幻觉的基准和方法论的概述。此外，我们深入研究了这些幻觉的根本原因，包括对训练数据和模型组件的认知。我们还对缓解幻觉的现有方法进行了批判性回顾，并讨论了关于 LVLMs 中幻觉的未解问题和未来研究方向。

Feb, 2024

目标引导是否真能减少大型视觉语言模型的幻觉？

在 LVLM 的开放式字幕生成中，细粒度对象定位目标对对象形象幻觉的效果很小或没有效果。

Jun, 2024