GPT-4V (ision): 幻觉的整体分析：偏见和干扰挑战

Nov, 2023

GPT-4V (ision): 幻觉的整体分析：偏见和干扰挑战

Holistic Analysis of Hallucination in GPT-4V(ision): Bias and Interference Challenges

Chenhang Cui, Yiyang Zhou, Xinyu Yang, Shirley Wu, Linjun Zhang...

TL;DRGPT-4V (ision) 的幻觉行为以及在视觉语言模型中的两种常见幻觉类型（偏见和干扰）的评估结果表明其存在偏见，如区域性偏见和对引导性问题的脆弱性，并揭示了现有解决方案的无效性，强调了需要新的解决方案。

Abstract

While GPT-4V(ision) impressively models both visual and textual information simultaneously, it's hallucination behavior has not been systematically assessed. To bridge this gap, we introduce a new benchmark, namely, the

gpt-4v(ision)hallucination behavior bias interference bingo benchmark

发现论文，激发创造

HallusionBench: 视觉与图像上下文推理基准测试，对 GPT-4V (ision)，LLaVA-1.5 和其他多模态模型构成挑战

通过研究图像上下文推理基准测试 HallusionBench，揭示了 VLM（Vision-Language Model）的幻觉和视觉错觉，并在未来改进中提出了新的见解。

Oct, 2023

本能偏见：虚假图像导致多语言语言模型的幻觉

通过提出 “CorrelationQA” 评估指标，该研究探讨了多模态大型语言模型的困惑问题并发现其存在普遍的本能偏见和缺乏鲁棒性。

Feb, 2024

评估中文大型语言模型中的幻觉

在这篇论文中，我们建立了一个名为 HalluQA 的基准，用于衡量中文大型语言模型中的幻觉现象。HalluQA 包含 450 个精心设计的对抗性问题，涵盖多个领域，并考虑了中国的历史文化、习俗和社会现象。我们在构建 HalluQA 过程中考虑了两种类型的幻觉：模仿性虚假和事实错误，并基于 GLM-130B 和 ChatGPT 构建对抗样本。为了评估，我们使用 GPT-4 设计了一种自动评估方法来判断模型输出是否存在幻觉。我们对 24 个大型语言模型进行了广泛实验，包括 ERNIE-Bot、Baichuan2、ChatGLM、Qwen、SparkDesk 等。在这 24 个模型中，有 18 个实现了低于 50% 的非幻觉率。这表明 HalluQA 具有很高的挑战性。我们分析了不同类型模型中主要类型的幻觉及其原因。此外，我们讨论了不同类型模型应优先考虑哪些类型的幻觉。

Oct, 2023

用视觉监督减轻视觉 - 语言模型中的虚构问题

通过引入更详细的视觉注释和更具区分性的视觉模型来提高大型视觉语言模型的训练，使其能够生成更精确的回答，减少幻觉；此外，提出了新的评估基准 RAH-Bench 分为三种不同的幻觉类型，与原始 LLaVA 相比，我们的方法在该基准下实现了 +8.4% 的改进，并在其他模型上取得了广泛的性能提升。

Nov, 2023

评估用于大型视觉语言模型的幻觉基准的质量

大规模视觉语言模型（LVLMs）的幻觉问题是当前研究的主要关注领域，本研究提出了一种用于评估幻觉质量的基准测量框架（HQM），通过可靠性和有效性的指标对现有幻觉基准进行评估，并构建了一种高质量的 LVLMs 幻觉基准（HQH）。研究在多个代表性 LVLMs 模型上进行了广泛评估，揭示了现有模型中存在的幻觉问题。

Jun, 2024

迷失在翻译中：当 GPT-4V (ision) 无法与文字心有灵犀。VLLMs 及更多的视觉语言一致性分析

通过对多模态机制的详细分析，揭示了 GPT-4V 等模型执行视觉和语言任务的一致性与独立性，并引入了一种名为 “Vision Description Prompting” 的方法，有效提高了具有挑战性的视觉相关任务的性能。

Oct, 2023

IllusionVQA：一个为视觉语言模型设计的具有挑战性的视错觉数据集

Vision Language Models are tested on the IllusionVQA dataset, revealing their performance and weaknesses in comprehension and soft localization tasks, particularly in the context of optical illusions and In-Context Learning.

Mar, 2024

PhD：一个带提示的视觉幻觉评估数据集

通过分析 Intrinsic Vision-Language Hallucination（IVL-Hallu）问题的不同类型、原因和反映，我们提出了几种新颖的 IVL-Hallu 任务并将其分为四种类型：物体幻觉、属性幻觉、多模态冲突幻觉和反对常识幻觉。在这个研究中，我们提出了一个更具挑战性的基准测试来评估和探索 IVL-Hallu，以便为未来的 IVL-Hallu 和 LVLM 研究提供帮助。

Mar, 2024

大型视觉语言模型中的幻觉调查

通过综合调查，我们分析了大型视觉语言模型（LVLMs）中的幻觉问题，以建立一个概览并为未来的缓解工作提供帮助。调查包括对 LVLMs 中幻觉的概念澄清、幻觉症状的多样性及存在的挑战、以及评估 LVLMs 幻觉的基准和方法论的概述。此外，我们深入研究了这些幻觉的根本原因，包括对训练数据和模型组件的认知。我们还对缓解幻觉的现有方法进行了批判性回顾，并讨论了关于 LVLMs 中幻觉的未解问题和未来研究方向。

Feb, 2024

基于幻觉增强对比学习的多模态大型语言模型

本文从表示学习的新角度解决了多模态大型语言模型中的幻觉问题，并通过引入对比学习的方法，在多个基准测试中证明了减少幻觉和提高性能的有效性。

Dec, 2023