大型视觉语言模型中评估和缓解数字幻觉：一种一致性视角

Mar, 2024

大型视觉语言模型中评估和缓解数字幻觉：一种一致性视角

Evaluating and Mitigating Number Hallucinations in Large Vision-Language Models: A Consistency Perspective

Huixuan Zhang, Junzhe Zhang, Xiaojun Wan

TL;DR通过建立数据集和使用评估指标，我们发现大规模视觉语言模型中存在数量幻觉的普遍问题，并从内部和外部一致性问题的角度进行了深入分析。我们提出了一种一致性训练方法来减轻这种幻觉，与直接微调方法相比，其平均改善了 8%。

Abstract

large vision language models have demonstrated remarkable efficacy in addressing challenges related to both textual and visual content. Nevertheless, these models are susceptible to various hallucinations. In this paper, we focus on a new form of hallucination, specifically termed as <

large vision language models number hallucination dataset evaluation metrics consistency training method

发现论文，激发创造

大型视觉语言模型中的幻觉调查

通过综合调查，我们分析了大型视觉语言模型（LVLMs）中的幻觉问题，以建立一个概览并为未来的缓解工作提供帮助。调查包括对 LVLMs 中幻觉的概念澄清、幻觉症状的多样性及存在的挑战、以及评估 LVLMs 幻觉的基准和方法论的概述。此外，我们深入研究了这些幻觉的根本原因，包括对训练数据和模型组件的认知。我们还对缓解幻觉的现有方法进行了批判性回顾，并讨论了关于 LVLMs 中幻觉的未解问题和未来研究方向。

Feb, 2024

大规模视觉语言模型中的幻觉评估和分析

基于大型语言模型的幻觉评估框架 (HaELM) 提出了对当前大视觉 - 语言模型 (LVLMs) 进行幻觉评估的方法，并分析了导致幻觉的因素，并提供了缓解幻觉问题的建议。

Aug, 2023

多模态大型语言模型的幻觉：一项调查

综述着重从细致的分类及持盾人儿的划分、评估基准和减轻方式中就多模式大型语言模型（MLLMs）中产生幻觉的原因进行分析，旨在加深对 MLLMs 中幻觉的理解，并激发该领域的进一步发展。

Apr, 2024

用视觉监督减轻视觉 - 语言模型中的虚构问题

通过引入更详细的视觉注释和更具区分性的视觉模型来提高大型视觉语言模型的训练，使其能够生成更精确的回答，减少幻觉；此外，提出了新的评估基准 RAH-Bench 分为三种不同的幻觉类型，与原始 LLaVA 相比，我们的方法在该基准下实现了 +8.4% 的改进，并在其他模型上取得了广泛的性能提升。

Nov, 2023

逻辑闭环：在大规模视觉 - 语言模型中揭示物体幻觉

利用逻辑封闭环路的原理，提出了一种基于逻辑一致性探测的对象幻觉检测和缓解框架，命名为 LogicCheckGPT，该方法可以无缝应用于所有现有的大视觉 - 语言模型，并在三个基准测试中的四种模型上进行的全面实验表明了该方法带来的显着改进，证明了其有效性和普适性。

Feb, 2024

VALOR-EVAL: 大型视觉语言模型的整体覆盖和忠实度评估

大型视觉语言模型（LVLMs）在生成看似可信但事实上不正确的输出时存在幻觉问题，这损害了它们的可靠性。为了解决这些问题，我们介绍了一个多维度的评估基准和基于大型语言模型（LLM）的两阶段评估框架，通过对现有 LVLMs 进行实验，证明了我们的评估方法比现有工作更全面、与人类更相关，并且强调了在保持输出信息性的同时解决 LVLMs 中的幻觉问题的关键平衡。

Apr, 2024

可信并非忠实：探究视觉 - 语言预训练中对象幻觉问题

该论文系统研究了视觉语言预训练模型中对象幻觉问题，从近期最先进的 VLP 模型，VLP 中不同类型的图像编码方式，以及 VLP 目标的不同方面入手，提出了一种名为 ObjMLM 的简单而有效的 VLP 损失，能够减少对象幻觉。实验表明，ObjMLM 可以将对象幻觉降低多达 17.4%。

Oct, 2022

MedVH：面向医学环境中大型视觉语言模型的幻觉系统评估

大视觉语言模型（LVLMs）在自然图像和文本数据的各种任务中取得了卓越的性能，在 LVLMs 微调和训练方面引发了大量研究。尽管有所进展，但对这些模型在小型数据集上微调时对幻觉的稳健性的研究非常有限。本研究引入了一个新的基准数据集，即医学视觉幻觉测试（MedVH），以评估特定领域 LVLMs 的幻觉。MedVH 包括五个任务，用于评估 LVLMs 在医学上下文中的幻觉，包括对文本和视觉输入的全面理解以及长文本回应生成。我们对通用 LVLMs 和医学 LVLMs 进行了广泛实验，发现尽管医学 LVLMs 在标准医学任务上表现出了很好的性能，但它们特别容易产生幻觉，通常比通用模型更容易产生幻觉，这引发了对这些特定领域模型可靠性的重大担忧。对于医学 LVLMs 在真实世界应用中真正有价值，它们不仅必须准确整合医学知识，还必须保持稳健的推理能力以防止幻觉。我们的工作为未来的这些研究提供了评估的途径。

Jul, 2024

大型视觉语言模型中的对象幻觉分析与缓解

LVLM Hallucination Revisor (LURE) 是一种简单而强大的算法，通过重建较少产生幻觉的描述来修正 LVLMs 中的物体幻觉问题，从而提高视觉总结和推理等视觉语言任务的性能。

Oct, 2023

评估大规模视觉语言模型中的物体错构

通过对大型视觉语言模型的系统研究，本论文发现大型视觉语言模型容易出现物体幻影问题，并探讨了视觉指导对幻觉的影响，提出了一种改进的评估方法 POPE，以更稳定和灵活的方式评估物体幻影问题。

May, 2023