大规模视觉语言模型中的多模态幻觉积聚的调查和缓解

ACLJun, 2024

大规模视觉语言模型中的多模态幻觉积聚的调查和缓解

Investigating and Mitigating the Multimodal Hallucination Snowballing in Large Vision-Language Models

Weihong Zhong, Xiaocheng Feng, Liang Zhao, Qiming Li, Lei Huang...

TL;DR当面临以前产生的幻觉相关查询时，大型视觉 - 语言模型 (LVLMs) 会受到幻觉的影响而做出错误响应吗？这篇论文提出了一个评估 LVLMs 行为的框架，结果显示开源 LVLMs 的性能下降了至少 31％，进一步提出了一个名为 Residual Visual Decoding 的无需训练的方法来缓解多模态幻觉扩散现象。

Abstract

Though advanced in understanding visual information with human languages, large vision-language models (LVLMs) still suffer from multimodal hallucinations. A natural concern is that during multimodal interaction, the generated hallucinations could influence the LVLMs' subsequent genera

multimodal hallucinations large vision-language models lvlms' behaviors multimodal hallucination snowballing residual visual decoding

发现论文，激发创造

多模态大型语言模型的幻觉：一项调查

综述着重从细致的分类及持盾人儿的划分、评估基准和减轻方式中就多模式大型语言模型（MLLMs）中产生幻觉的原因进行分析，旨在加深对 MLLMs 中幻觉的理解，并激发该领域的进一步发展。

Apr, 2024

大型视觉语言模型中的幻觉调查

通过综合调查，我们分析了大型视觉语言模型（LVLMs）中的幻觉问题，以建立一个概览并为未来的缓解工作提供帮助。调查包括对 LVLMs 中幻觉的概念澄清、幻觉症状的多样性及存在的挑战、以及评估 LVLMs 幻觉的基准和方法论的概述。此外，我们深入研究了这些幻觉的根本原因，包括对训练数据和模型组件的认知。我们还对缓解幻觉的现有方法进行了批判性回顾，并讨论了关于 LVLMs 中幻觉的未解问题和未来研究方向。

Feb, 2024

通过精细的人工智能反馈检测和缓解大型视觉语言模型中的幻觉

通过细粒度人工智能反馈，检测和减轻大规模视觉语言模型中的幻觉现象。通过生成小规模句子级幻觉注释数据集和使用检测 - 重写流程来自动构建偏好数据集，进一步区分幻觉的严重程度，将幻觉严重程度纳入偏好学习来减轻大规模视觉语言模型中的幻觉。广泛实验证明了我们方法的有效性。

Apr, 2024

用视觉监督减轻视觉 - 语言模型中的虚构问题

通过引入更详细的视觉注释和更具区分性的视觉模型来提高大型视觉语言模型的训练，使其能够生成更精确的回答，减少幻觉；此外，提出了新的评估基准 RAH-Bench 分为三种不同的幻觉类型，与原始 LLaVA 相比，我们的方法在该基准下实现了 +8.4% 的改进，并在其他模型上取得了广泛的性能提升。

Nov, 2023

大规模视觉语言模型中的幻觉评估和分析

基于大型语言模型的幻觉评估框架 (HaELM) 提出了对当前大视觉 - 语言模型 (LVLMs) 进行幻觉评估的方法，并分析了导致幻觉的因素，并提供了缓解幻觉问题的建议。

Aug, 2023

大型视觉语言模型中的幻觉检测与预防

介绍 M-HalDetect，一个用于训练和评估幻觉检测和预防模型的多模态幻觉检测数据集。使用 Fine-grained Direct Preference Optimization 和拒绝抽样方法，成功减少了幻觉率，为视觉问题回答任务提供了重要的改进。

Aug, 2023

多模态图像幻觉控制：视觉信息的连接

通过引入 M3ID 多模态互信息解码方法对先前训练的视觉语言生成模型进行推理时的增强，能够减少幻觉并提高模型的依赖性，从而减少视觉无依据的回答。

Mar, 2024

基于幻觉增强对比学习的多模态大型语言模型

本文从表示学习的新角度解决了多模态大型语言模型中的幻觉问题，并通过引入对比学习的方法，在多个基准测试中证明了减少幻觉和提高性能的有效性。

Dec, 2023

为大型视觉语言模型提供定向指导调节，减轻幻觉

针对当前大型视觉 - 语言模型在生成回复和相应图像之间存在的不一致问题，本研究提出了一种名为 DFTG 的有针对性的指导数据生成框架，通过诊断模型的响应和图像，生成有针对性的指导数据以减轻幻觉问题。实验结果表明，与先前的数据集相比，我们的方法生成的有针对性指导数据在减轻幻觉方面更加有效。

Apr, 2024

MedVH：面向医学环境中大型视觉语言模型的幻觉系统评估

大视觉语言模型（LVLMs）在自然图像和文本数据的各种任务中取得了卓越的性能，在 LVLMs 微调和训练方面引发了大量研究。尽管有所进展，但对这些模型在小型数据集上微调时对幻觉的稳健性的研究非常有限。本研究引入了一个新的基准数据集，即医学视觉幻觉测试（MedVH），以评估特定领域 LVLMs 的幻觉。MedVH 包括五个任务，用于评估 LVLMs 在医学上下文中的幻觉，包括对文本和视觉输入的全面理解以及长文本回应生成。我们对通用 LVLMs 和医学 LVLMs 进行了广泛实验，发现尽管医学 LVLMs 在标准医学任务上表现出了很好的性能，但它们特别容易产生幻觉，通常比通用模型更容易产生幻觉，这引发了对这些特定领域模型可靠性的重大担忧。对于医学 LVLMs 在真实世界应用中真正有价值，它们不仅必须准确整合医学知识，还必须保持稳健的推理能力以防止幻觉。我们的工作为未来的这些研究提供了评估的途径。

Jul, 2024