VideoHallucer：评估大型视频语言模型中的内在和外在幻觉

Jun, 2024

VideoHallucer：评估大型视频语言模型中的内在和外在幻觉

VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models

Yuxuan Wang, Yueqian Wang, Dongyan Zhao, Cihang Xie, Zilong Zheng

TL;DR最近多模态大型语言模型在视频理解方面取得了重要进展，但这些模型常受到 “幻觉” 的困扰，本文介绍了 VideoHallucer，它是对大规模视频语言模型的幻觉检测的首个综合性基准。通过评估 11 个大规模视频语言模型，我们发现当前的模型大多存在幻觉问题，并且对于探测外在真实幻觉的能力，扩大数据集和参数规模改进了模型对基本视觉线索和反事实的探测能力，却提供了有限的改进。

Abstract

Recent advancements in multimodal large language models (MLLMs) have extended their capabilities to video understanding. Yet, these models are often plagued by "hallucinations", where irrelevant or nonsensical co

multimodal large language models hallucination detection video understanding videohallucer lvlms

发现论文，激发创造

大型语言模型中幻觉的令人不安出现 -- 广泛定义、量化和规范性改进

通过细致分类和度、方向及类别上的倾向进行细粒度的幻视建模和缓解，我们提供了两个幻视方向（FM 和 SL）的全面理解，并将其进一步细分为内在和外在，分为温和、中度和令人担忧的三个严重程度，同时我们还对幻视进行了六种类型的细致分类。此外，我们还提供了包含 75,000 个样本和人工注释的 HallucInation eLiciTation（HILT）数据集。最后，我们提出了 Hallucination Vulnerability Index（HVI），该指数可以量化和评估语言模型在产生幻视方面的脆弱性，并作为人工智能相关政策制定的标准工具。

Oct, 2023

PhD：一个带提示的视觉幻觉评估数据集

通过分析 Intrinsic Vision-Language Hallucination（IVL-Hallu）问题的不同类型、原因和反映，我们提出了几种新颖的 IVL-Hallu 任务并将其分为四种类型：物体幻觉、属性幻觉、多模态冲突幻觉和反对常识幻觉。在这个研究中，我们提出了一个更具挑战性的基准测试来评估和探索 IVL-Hallu，以便为未来的 IVL-Hallu 和 LVLM 研究提供帮助。

Mar, 2024

Hal-Eval: 一个用于大型视觉语言模型的通用且精细的幻觉评估框架

该研究提出了一种包括事件妄想在内的妄想细分分类方法，并利用高级视觉语言模型生成和过滤各类妄想数据，在通用评估框架中集成鉴别和生成式评估方法，从而评估大规模视觉语言模型处理妄想的能力，为评估妄想提供了可靠而全面的工具。

Feb, 2024

多模态大型语言模型的幻觉：一项调查

综述着重从细致的分类及持盾人儿的划分、评估基准和减轻方式中就多模式大型语言模型（MLLMs）中产生幻觉的原因进行分析，旨在加深对 MLLMs 中幻觉的理解，并激发该领域的进一步发展。

Apr, 2024

大规模视觉语言模型中的幻觉评估和分析

基于大型语言模型的幻觉评估框架 (HaELM) 提出了对当前大视觉 - 语言模型 (LVLMs) 进行幻觉评估的方法，并分析了导致幻觉的因素，并提供了缓解幻觉问题的建议。

Aug, 2023

大型视觉语言模型中的幻觉调查

通过综合调查，我们分析了大型视觉语言模型（LVLMs）中的幻觉问题，以建立一个概览并为未来的缓解工作提供帮助。调查包括对 LVLMs 中幻觉的概念澄清、幻觉症状的多样性及存在的挑战、以及评估 LVLMs 幻觉的基准和方法论的概述。此外，我们深入研究了这些幻觉的根本原因，包括对训练数据和模型组件的认知。我们还对缓解幻觉的现有方法进行了批判性回顾，并讨论了关于 LVLMs 中幻觉的未解问题和未来研究方向。

Feb, 2024

使用大型视觉语言模型检测和评估医学幻觉

为了检测和评估 LVLMs 的幻觉，我们引入了 Med-HallMark，这是第一个专门设计用于医学多模态领域中的幻觉检测和评估的基准。我们提出了 MediHall Score 评价指标，并介绍了 MediHallDetector，一个用于准确检测幻觉的新型医学 LVLM。通过实验评估，我们建立了使用我们的基准的热门 LVLMs 的基准值，结果表明 MediHall Score 相对于传统指标提供了对幻觉影响更丰富的理解，并展示了 MediHallDetector 的改进性能。我们希望这项工作能显著提高 LVLMs 在医学应用中的可靠性。

Jun, 2024

基于幻觉增强对比学习的多模态大型语言模型

本文从表示学习的新角度解决了多模态大型语言模型中的幻觉问题，并通过引入对比学习的方法，在多个基准测试中证明了减少幻觉和提高性能的有效性。

Dec, 2023

评估用于大型视觉语言模型的幻觉基准的质量

大规模视觉语言模型（LVLMs）的幻觉问题是当前研究的主要关注领域，本研究提出了一种用于评估幻觉质量的基准测量框架（HQM），通过可靠性和有效性的指标对现有幻觉基准进行评估，并构建了一种高质量的 LVLMs 幻觉基准（HQH）。研究在多个代表性 LVLMs 模型上进行了广泛评估，揭示了现有模型中存在的幻觉问题。

Jun, 2024

多模态大型语言模型的统一幻觉检测

多模态大语言模型（MLLMs）在全方位任务中取得了显著进展，但幻觉问题成为其关键问题之一。我们的研究扩展了对幻觉检测的调查范围，并提出了一个新颖的元评估基准（MHaluBench），以促进幻觉检测方法的发展。我们还推出了一个新颖的统一多模态幻觉检测框架（UNIHD），利用一套辅助工具来强化幻觉检测的有效性，并提供了针对不同幻觉类别的工具应用战略见解。

Feb, 2024