视觉幻觉：定义、量化和规范化疗法

Mar, 2024

视觉幻觉：定义、量化和规范化疗法

Visual Hallucination: Definition, Quantification, and Prescriptive Remediations

Vipula Rawte, Anku Rani, Harshad Sharma, Neeraj Anand, Krishnav Rajbangshi...

TL;DR本研究针对视觉-语言模型中的幻觉进行细致的分析，并通过图像字幕和视觉问答两个任务，确定了八个精细化的视觉幻觉方向：上下文猜测、身份不一致、地理错误、视觉错觉、性别异常、VLM作为分类器、错误阅读和数字不一致。同时，还提供了一个包含2,000个样本的公开数据集VHILT，用于研究这些类别的视觉幻觉。

Abstract

The troubling rise of hallucination presents perhaps the most significant impediment to the advancement of responsible AI. In recent times, considerable research has focused on detecting and mitigating hallucination

发现论文，激发创造

可信并非忠实：探究视觉-语言预训练中对象幻觉问题

该论文系统研究了视觉语言预训练模型中对象幻觉问题，从近期最先进的VLP模型，VLP中不同类型的图像编码方式，以及VLP目标的不同方面入手，提出了一种名为ObjMLM的简单而有效的VLP损失，能够减少对象幻觉。实验表明，ObjMLM可以将对象幻觉降低多达17.4%。

Oct, 2022

大型视觉语言模型中的幻觉检测与预防

介绍M-HalDetect，一个用于训练和评估幻觉检测和预防模型的多模态幻觉检测数据集。使用Fine-grained Direct Preference Optimization和拒绝抽样方法，成功减少了幻觉率，为视觉问题回答任务提供了重要的改进。

Aug, 2023

用视觉监督减轻视觉-语言模型中的虚构问题

通过引入更详细的视觉注释和更具区分性的视觉模型来提高大型视觉语言模型的训练，使其能够生成更精确的回答，减少幻觉；此外，提出了新的评估基准 RAH-Bench 分为三种不同的幻觉类型，与原始 LLaVA 相比，我们的方法在该基准下实现了 +8.4% 的改进，并在其他模型上取得了广泛的性能提升。

Nov, 2023

大型视觉语言模型中的幻觉调查

通过综合调查，我们分析了大型视觉语言模型（LVLMs）中的幻觉问题，以建立一个概览并为未来的缓解工作提供帮助。调查包括对LVLMs中幻觉的概念澄清、幻觉症状的多样性及存在的挑战、以及评估LVLMs幻觉的基准和方法论的概述。此外，我们深入研究了这些幻觉的根本原因，包括对训练数据和模型组件的认知。我们还对缓解幻觉的现有方法进行了批判性回顾，并讨论了关于LVLMs中幻觉的未解问题和未来研究方向。

Feb, 2024

PhD：一个带提示的视觉幻觉评估数据集

通过分析 Intrinsic Vision-Language Hallucination（IVL-Hallu）问题的不同类型、原因和反映，我们提出了几种新颖的 IVL-Hallu 任务并将其分为四种类型：物体幻觉、属性幻觉、多模态冲突幻觉和反对常识幻觉。在这个研究中，我们提出了一个更具挑战性的基准测试来评估和探索 IVL-Hallu，以便为未来的 IVL-Hallu 和 LVLM 研究提供帮助。

Mar, 2024

VDGD：通过弥合视觉感知差距来减轻认知提示中的低可信度语言幻觉

对大型视觉语言模型（LVLMs）的幻觉问题进行了深入分析，发现了几个新的洞察力，提出了一种简单、稳健和无需训练的方法（VDGD）来减轻幻觉，实验结果表明VDGD在减少幻觉方面显著优于其他基线方法。

May, 2024

VideoHallucer：评估大型视频语言模型中的内在和外在幻觉

最近多模态大型语言模型在视频理解方面取得了重要进展，但这些模型常受到“幻觉”的困扰，本文介绍了VideoHallucer，它是对大规模视频语言模型的幻觉检测的首个综合性基准。通过评估11个大规模视频语言模型，我们发现当前的模型大多存在幻觉问题，并且对于探测外在真实幻觉的能力，扩大数据集和参数规模改进了模型对基本视觉线索和反事实的探测能力，却提供了有限的改进。

Jun, 2024

BEAF：评估视觉语言模型中的幻觉的前后变化

为了提高视觉语言模型（VLMs）的可信度并更好地解决其幻觉问题，我们创建了一个新的评估数据集，称为BEfore-AFter幻觉数据集（BEAF），并引入了新的指标：True Understanding (TU)，IGnorance (IG)，StuBbornness (SB)，和 InDecision (ID)。通过图像编辑模型操纵视觉场景信息，并根据场景变化设计指标，我们可以清楚地评估VLMs是否能正确理解给定的场景，以观察其感知能力。

Jul, 2024

通过潜在空间引导减少视觉语言模型中的幻觉

本研究解决了大型视觉语言模型（LVLMs）中幻觉现象的问题，该现象源于视觉输入与文本输出之间的不对齐。提出了一种新技术——视觉与文本干预（VTI），该技术在推理过程中引导潜在空间表示，从而提高视觉特征的稳定性，实验结果表明VTI有效减少幻觉现象，并在多个指标上超越基线方法，突显了视觉特征稳定性的重要性。

Oct, 2024

通过潜空间引导减少视觉语言模型的幻觉

本研究解决了大型视觉语言模型中幻觉现象的问题，分析其根本机制及其与大语言模型的不同之处。提出了一种新颖的视觉和文本干预技术（VTI），旨在通过引导潜空间表示来增强视觉特征的稳定性，从而有效减少幻觉现象，并在多项指标上超越基线方法，展示了视觉特征稳定性在视觉语言模型中的关键作用。

Oct, 2024