GPT-4V (ision): 幻觉的整体分析:偏见和干扰挑战
通过研究图像上下文推理基准测试 HallusionBench,揭示了 VLM(Vision-Language Model)的幻觉和视觉错觉,并在未来改进中提出了新的见解。
Oct, 2023
在这篇论文中,我们建立了一个名为 HalluQA 的基准,用于衡量中文大型语言模型中的幻觉现象。HalluQA 包含 450 个精心设计的对抗性问题,涵盖多个领域,并考虑了中国的历史文化、习俗和社会现象。我们在构建 HalluQA 过程中考虑了两种类型的幻觉:模仿性虚假和事实错误,并基于 GLM-130B 和 ChatGPT 构建对抗样本。为了评估,我们使用 GPT-4 设计了一种自动评估方法来判断模型输出是否存在幻觉。我们对 24 个大型语言模型进行了广泛实验,包括 ERNIE-Bot、Baichuan2、ChatGLM、Qwen、SparkDesk 等。在这 24 个模型中,有 18 个实现了低于 50% 的非幻觉率。这表明 HalluQA 具有很高的挑战性。我们分析了不同类型模型中主要类型的幻觉及其原因。此外,我们讨论了不同类型模型应优先考虑哪些类型的幻觉。
Oct, 2023
通过引入更详细的视觉注释和更具区分性的视觉模型来提高大型视觉语言模型的训练,使其能够生成更精确的回答,减少幻觉;此外,提出了新的评估基准 RAH-Bench 分为三种不同的幻觉类型,与原始 LLaVA 相比,我们的方法在该基准下实现了 +8.4% 的改进,并在其他模型上取得了广泛的性能提升。
Nov, 2023
大规模视觉语言模型(LVLMs)的幻觉问题是当前研究的主要关注领域,本研究提出了一种用于评估幻觉质量的基准测量框架(HQM),通过可靠性和有效性的指标对现有幻觉基准进行评估,并构建了一种高质量的 LVLMs 幻觉基准(HQH)。研究在多个代表性 LVLMs 模型上进行了广泛评估,揭示了现有模型中存在的幻觉问题。
Jun, 2024
通过对多模态机制的详细分析,揭示了 GPT-4V 等模型执行视觉和语言任务的一致性与独立性,并引入了一种名为 “Vision Description Prompting” 的方法,有效提高了具有挑战性的视觉相关任务的性能。
Oct, 2023
Vision Language Models are tested on the IllusionVQA dataset, revealing their performance and weaknesses in comprehension and soft localization tasks, particularly in the context of optical illusions and In-Context Learning.
Mar, 2024
通过分析 Intrinsic Vision-Language Hallucination(IVL-Hallu)问题的不同类型、原因和反映,我们提出了几种新颖的 IVL-Hallu 任务并将其分为四种类型:物体幻觉、属性幻觉、多模态冲突幻觉和反对常识幻觉。在这个研究中,我们提出了一个更具挑战性的基准测试来评估和探索 IVL-Hallu,以便为未来的 IVL-Hallu 和 LVLM 研究提供帮助。
Mar, 2024
通过综合调查,我们分析了大型视觉语言模型(LVLMs)中的幻觉问题,以建立一个概览并为未来的缓解工作提供帮助。调查包括对 LVLMs 中幻觉的概念澄清、幻觉症状的多样性及存在的挑战、以及评估 LVLMs 幻觉的基准和方法论的概述。此外,我们深入研究了这些幻觉的根本原因,包括对训练数据和模型组件的认知。我们还对缓解幻觉的现有方法进行了批判性回顾,并讨论了关于 LVLMs 中幻觉的未解问题和未来研究方向。
Feb, 2024