视觉幻觉:定义、量化和规范化疗法
该论文系统研究了视觉语言预训练模型中对象幻觉问题,从近期最先进的VLP模型,VLP中不同类型的图像编码方式,以及VLP目标的不同方面入手,提出了一种名为ObjMLM的简单而有效的VLP损失,能够减少对象幻觉。实验表明,ObjMLM可以将对象幻觉降低多达17.4%。
Oct, 2022
介绍M-HalDetect,一个用于训练和评估幻觉检测和预防模型的多模态幻觉检测数据集。使用Fine-grained Direct Preference Optimization和拒绝抽样方法,成功减少了幻觉率,为视觉问题回答任务提供了重要的改进。
Aug, 2023
通过引入更详细的视觉注释和更具区分性的视觉模型来提高大型视觉语言模型的训练,使其能够生成更精确的回答,减少幻觉;此外,提出了新的评估基准 RAH-Bench 分为三种不同的幻觉类型,与原始 LLaVA 相比,我们的方法在该基准下实现了 +8.4% 的改进,并在其他模型上取得了广泛的性能提升。
Nov, 2023
通过综合调查,我们分析了大型视觉语言模型(LVLMs)中的幻觉问题,以建立一个概览并为未来的缓解工作提供帮助。调查包括对LVLMs中幻觉的概念澄清、幻觉症状的多样性及存在的挑战、以及评估LVLMs幻觉的基准和方法论的概述。此外,我们深入研究了这些幻觉的根本原因,包括对训练数据和模型组件的认知。我们还对缓解幻觉的现有方法进行了批判性回顾,并讨论了关于LVLMs中幻觉的未解问题和未来研究方向。
Feb, 2024
通过分析 Intrinsic Vision-Language Hallucination(IVL-Hallu)问题的不同类型、原因和反映,我们提出了几种新颖的 IVL-Hallu 任务并将其分为四种类型:物体幻觉、属性幻觉、多模态冲突幻觉和反对常识幻觉。在这个研究中,我们提出了一个更具挑战性的基准测试来评估和探索 IVL-Hallu,以便为未来的 IVL-Hallu 和 LVLM 研究提供帮助。
Mar, 2024
对大型视觉语言模型(LVLMs)的幻觉问题进行了深入分析,发现了几个新的洞察力,提出了一种简单、稳健和无需训练的方法(VDGD)来减轻幻觉,实验结果表明VDGD在减少幻觉方面显著优于其他基线方法。
May, 2024
最近多模态大型语言模型在视频理解方面取得了重要进展,但这些模型常受到“幻觉”的困扰,本文介绍了VideoHallucer,它是对大规模视频语言模型的幻觉检测的首个综合性基准。通过评估11个大规模视频语言模型,我们发现当前的模型大多存在幻觉问题,并且对于探测外在真实幻觉的能力,扩大数据集和参数规模改进了模型对基本视觉线索和反事实的探测能力,却提供了有限的改进。
Jun, 2024
为了提高视觉语言模型(VLMs)的可信度并更好地解决其幻觉问题,我们创建了一个新的评估数据集,称为BEfore-AFter幻觉数据集(BEAF),并引入了新的指标:True Understanding (TU),IGnorance (IG),StuBbornness (SB),和 InDecision (ID)。通过图像编辑模型操纵视觉场景信息,并根据场景变化设计指标,我们可以清楚地评估VLMs是否能正确理解给定的场景,以观察其感知能力。
Jul, 2024
本研究解决了大型视觉语言模型(LVLMs)中幻觉现象的问题,该现象源于视觉输入与文本输出之间的不对齐。提出了一种新技术——视觉与文本干预(VTI),该技术在推理过程中引导潜在空间表示,从而提高视觉特征的稳定性,实验结果表明VTI有效减少幻觉现象,并在多个指标上超越基线方法,突显了视觉特征稳定性的重要性。
Oct, 2024
本研究解决了大型视觉语言模型中幻觉现象的问题,分析其根本机制及其与大语言模型的不同之处。提出了一种新颖的视觉和文本干预技术(VTI),旨在通过引导潜空间表示来增强视觉特征的稳定性,从而有效减少幻觉现象,并在多项指标上超越基线方法,展示了视觉特征稳定性在视觉语言模型中的关键作用。
Oct, 2024