逻辑闭环：在大规模视觉 - 语言模型中揭示物体幻觉

Feb, 2024

逻辑闭环：在大规模视觉 - 语言模型中揭示物体幻觉

Logical Closed Loop: Uncovering Object Hallucinations in Large Vision-Language Models

Junfei Wu, Qiang Liu, Ding Wang, Jinghao Zhang, Shu Wu...

TL;DR利用逻辑封闭环路的原理，提出了一种基于逻辑一致性探测的对象幻觉检测和缓解框架，命名为 LogicCheckGPT，该方法可以无缝应用于所有现有的大视觉 - 语言模型，并在三个基准测试中的四种模型上进行的全面实验表明了该方法带来的显着改进，证明了其有效性和普适性。

Abstract

object hallucination has been an Achilles' heel which hinders the broader applications of large vision-language models (lvlms).

object hallucination vision-language models logical closed loop-based framework object hallucination detection and mitigation lvlms

发现论文，激发创造

大型视觉语言模型中的对象幻觉分析与缓解

LVLM Hallucination Revisor (LURE) 是一种简单而强大的算法，通过重建较少产生幻觉的描述来修正 LVLMs 中的物体幻觉问题，从而提高视觉总结和推理等视觉语言任务的性能。

Oct, 2023

评估大规模视觉语言模型中的物体错构

通过对大型视觉语言模型的系统研究，本论文发现大型视觉语言模型容易出现物体幻影问题，并探讨了视觉指导对幻觉的影响，提出了一种改进的评估方法 POPE，以更稳定和灵活的方式评估物体幻影问题。

May, 2023

大规模视觉语言模型中的幻觉评估和分析

基于大型语言模型的幻觉评估框架 (HaELM) 提出了对当前大视觉 - 语言模型 (LVLMs) 进行幻觉评估的方法，并分析了导致幻觉的因素，并提供了缓解幻觉问题的建议。

Aug, 2023

大型视觉语言模型中的幻觉调查

通过综合调查，我们分析了大型视觉语言模型（LVLMs）中的幻觉问题，以建立一个概览并为未来的缓解工作提供帮助。调查包括对 LVLMs 中幻觉的概念澄清、幻觉症状的多样性及存在的挑战、以及评估 LVLMs 幻觉的基准和方法论的概述。此外，我们深入研究了这些幻觉的根本原因，包括对训练数据和模型组件的认知。我们还对缓解幻觉的现有方法进行了批判性回顾，并讨论了关于 LVLMs 中幻觉的未解问题和未来研究方向。

Feb, 2024

可信并非忠实：探究视觉 - 语言预训练中对象幻觉问题

该论文系统研究了视觉语言预训练模型中对象幻觉问题，从近期最先进的 VLP 模型，VLP 中不同类型的图像编码方式，以及 VLP 目标的不同方面入手，提出了一种名为 ObjMLM 的简单而有效的 VLP 损失，能够减少对象幻觉。实验表明，ObjMLM 可以将对象幻觉降低多达 17.4%。

Oct, 2022

目标引导是否真能减少大型视觉语言模型的幻觉？

在 LVLM 的开放式字幕生成中，细粒度对象定位目标对对象形象幻觉的效果很小或没有效果。

Jun, 2024

见之于眼：通过 CLIP 引导解码减轻大型视觉语言模型产生的幻觉

大规模视觉语言模型容易出现对象幻觉问题，本文提出了使用 CLIP 引导解码的方法来减少对象幻觉，通过增强生成文本与图像之间的视觉联系，有效缓解了多个视觉语言模型家族中的对象幻觉问题，并且保持了文本生成的实用性。

Feb, 2024

PhD：一个带提示的视觉幻觉评估数据集

通过分析 Intrinsic Vision-Language Hallucination（IVL-Hallu）问题的不同类型、原因和反映，我们提出了几种新颖的 IVL-Hallu 任务并将其分为四种类型：物体幻觉、属性幻觉、多模态冲突幻觉和反对常识幻觉。在这个研究中，我们提出了一个更具挑战性的基准测试来评估和探索 IVL-Hallu，以便为未来的 IVL-Hallu 和 LVLM 研究提供帮助。

Mar, 2024

大型视觉语言模型中评估和缓解数字幻觉：一种一致性视角

通过建立数据集和使用评估指标，我们发现大规模视觉语言模型中存在数量幻觉的普遍问题，并从内部和外部一致性问题的角度进行了深入分析。我们提出了一种一致性训练方法来减轻这种幻觉，与直接微调方法相比，其平均改善了 8%。

Mar, 2024

用视觉监督减轻视觉 - 语言模型中的虚构问题

通过引入更详细的视觉注释和更具区分性的视觉模型来提高大型视觉语言模型的训练，使其能够生成更精确的回答，减少幻觉；此外，提出了新的评估基准 RAH-Bench 分为三种不同的幻觉类型，与原始 LLaVA 相比，我们的方法在该基准下实现了 +8.4% 的改进，并在其他模型上取得了广泛的性能提升。

Nov, 2023