AUTOHALLUSION：视觉语言模型的自动生成幻觉基准

Jun, 2024

AUTOHALLUSION：视觉语言模型的自动生成幻觉基准

AUTOHALLUSION: Automatic Generation of Hallucination Benchmarks for Vision-Language Models

Xiyang Wu, Tianrui Guan, Dianqi Li, Shuaiyi Huang, Xiaoyu Liu...

TL;DR大型视觉 - 语言模型存在幻觉问题，该研究开发了自动生成幻觉的基准测试方法 AUTOHALLUSION，通过识别上下文线索并以此生成图像和问题，揭示了幻觉的常见失败模式和原因。对顶级视觉 - 语言模型进行综合评估发现，在 AUTOHALLUSION 的合成和真实世界数据集上，幻觉诱导成功率达到了 97.7% 和 98.7%，为解决幻觉问题提供了新的思路。

Abstract

large vision-language models (LVLMs) hallucinate: certain context cues in an image may trigger the language module's overconfident and incorrect reasoning on abnormal or hypothetical objects. Though a few benchma

large vision-language models hallucinations benchmark generation approach context cues failure patterns

发现论文，激发创造

AutoHall: 大型语言模型的自动幻觉数据集生成

该论文提出了 AutoHall 方法，通过自相矛盾的方式自动构建模型特定的幻觉数据集，然后基于这些数据集实现了无资源和黑盒幻觉检测方法，对开源和闭源大型语言模型进行了实验证明，在幻觉检测性能上优于现有基准模型，并且发现了不同模型之间的幻觉比例和类型的差异。

Sep, 2023

用视觉监督减轻视觉 - 语言模型中的虚构问题

通过引入更详细的视觉注释和更具区分性的视觉模型来提高大型视觉语言模型的训练，使其能够生成更精确的回答，减少幻觉；此外，提出了新的评估基准 RAH-Bench 分为三种不同的幻觉类型，与原始 LLaVA 相比，我们的方法在该基准下实现了 +8.4% 的改进，并在其他模型上取得了广泛的性能提升。

Nov, 2023

评估用于大型视觉语言模型的幻觉基准的质量

大规模视觉语言模型（LVLMs）的幻觉问题是当前研究的主要关注领域，本研究提出了一种用于评估幻觉质量的基准测量框架（HQM），通过可靠性和有效性的指标对现有幻觉基准进行评估，并构建了一种高质量的 LVLMs 幻觉基准（HQH）。研究在多个代表性 LVLMs 模型上进行了广泛评估，揭示了现有模型中存在的幻觉问题。

Jun, 2024

PhD：一个带提示的视觉幻觉评估数据集

通过分析 Intrinsic Vision-Language Hallucination（IVL-Hallu）问题的不同类型、原因和反映，我们提出了几种新颖的 IVL-Hallu 任务并将其分为四种类型：物体幻觉、属性幻觉、多模态冲突幻觉和反对常识幻觉。在这个研究中，我们提出了一个更具挑战性的基准测试来评估和探索 IVL-Hallu，以便为未来的 IVL-Hallu 和 LVLM 研究提供帮助。

Mar, 2024

大型视觉语言模型中的幻觉调查

通过综合调查，我们分析了大型视觉语言模型（LVLMs）中的幻觉问题，以建立一个概览并为未来的缓解工作提供帮助。调查包括对 LVLMs 中幻觉的概念澄清、幻觉症状的多样性及存在的挑战、以及评估 LVLMs 幻觉的基准和方法论的概述。此外，我们深入研究了这些幻觉的根本原因，包括对训练数据和模型组件的认知。我们还对缓解幻觉的现有方法进行了批判性回顾，并讨论了关于 LVLMs 中幻觉的未解问题和未来研究方向。

Feb, 2024

HallusionBench: 视觉与图像上下文推理基准测试，对 GPT-4V (ision)，LLaVA-1.5 和其他多模态模型构成挑战

通过研究图像上下文推理基准测试 HallusionBench，揭示了 VLM（Vision-Language Model）的幻觉和视觉错觉，并在未来改进中提出了新的见解。

Oct, 2023

大规模视觉语言模型中的幻觉评估和分析

基于大型语言模型的幻觉评估框架 (HaELM) 提出了对当前大视觉 - 语言模型 (LVLMs) 进行幻觉评估的方法，并分析了导致幻觉的因素，并提供了缓解幻觉问题的建议。

Aug, 2023

大型视觉语言模型中的对象幻觉分析与缓解

LVLM Hallucination Revisor (LURE) 是一种简单而强大的算法，通过重建较少产生幻觉的描述来修正 LVLMs 中的物体幻觉问题，从而提高视觉总结和推理等视觉语言任务的性能。

Oct, 2023

通过精细的人工智能反馈检测和缓解大型视觉语言模型中的幻觉

通过细粒度人工智能反馈，检测和减轻大规模视觉语言模型中的幻觉现象。通过生成小规模句子级幻觉注释数据集和使用检测 - 重写流程来自动构建偏好数据集，进一步区分幻觉的严重程度，将幻觉严重程度纳入偏好学习来减轻大规模视觉语言模型中的幻觉。广泛实验证明了我们方法的有效性。

Apr, 2024

逻辑闭环：在大规模视觉 - 语言模型中揭示物体幻觉

利用逻辑封闭环路的原理，提出了一种基于逻辑一致性探测的对象幻觉检测和缓解框架，命名为 LogicCheckGPT，该方法可以无缝应用于所有现有的大视觉 - 语言模型，并在三个基准测试中的四种模型上进行的全面实验表明了该方法带来的显着改进，证明了其有效性和普适性。

Feb, 2024