Pelican：通过声明分解和思维验证程序修正视觉 LLM 中的幻觉

Jul, 2024

Pelican：通过声明分解和思维验证程序修正视觉 LLM 中的幻觉

Pelican: Correcting Hallucination in Vision-LLMs via Claim Decomposition and Program of Thought Verification

Pritish Sahu, Karan Sikka, Ajay Divakaran

TL;DR通过索引验证，Pelican 可以检测和消除 LVLMs 在图像指令任务中的幻觉，并依靠中间变量、共享计算和推理能力更精确定位对象实例，从而提高其准确性。

Abstract

large visual language models (LVLMs) struggle with hallucinations in visual instruction following task(s), limiting their trustworthiness and real-world applicability. We propose →

large visual language models hallucinations pelican claim verification reasoning abilities

发现论文，激发创造

啄木鸟：多模态大语言模型的幻觉校正

通过引入一种名为 Woodpecker 的免训练方法，该论文主要针对快速发展的多模态大型语言模型（MLLMs）中存在的幻觉问题，并通过提取关键概念、问题构建、视觉知识验证、视觉声明生成和幻觉修正等五个阶段来纠正幻觉。通过定量和定性评估，证明了这种新范式的巨大潜力。

Oct, 2023

大型视觉语言模型中的幻觉检测与预防

介绍 M-HalDetect，一个用于训练和评估幻觉检测和预防模型的多模态幻觉检测数据集。使用 Fine-grained Direct Preference Optimization 和拒绝抽样方法，成功减少了幻觉率，为视觉问题回答任务提供了重要的改进。

Aug, 2023

大规模视觉语言模型中的幻觉评估和分析

基于大型语言模型的幻觉评估框架 (HaELM) 提出了对当前大视觉 - 语言模型 (LVLMs) 进行幻觉评估的方法，并分析了导致幻觉的因素，并提供了缓解幻觉问题的建议。

Aug, 2023

可信并非忠实：探究视觉 - 语言预训练中对象幻觉问题

该论文系统研究了视觉语言预训练模型中对象幻觉问题，从近期最先进的 VLP 模型，VLP 中不同类型的图像编码方式，以及 VLP 目标的不同方面入手，提出了一种名为 ObjMLM 的简单而有效的 VLP 损失，能够减少对象幻觉。实验表明，ObjMLM 可以将对象幻觉降低多达 17.4%。

Oct, 2022

见之于眼：通过 CLIP 引导解码减轻大型视觉语言模型产生的幻觉

大规模视觉语言模型容易出现对象幻觉问题，本文提出了使用 CLIP 引导解码的方法来减少对象幻觉，通过增强生成文本与图像之间的视觉联系，有效缓解了多个视觉语言模型家族中的对象幻觉问题，并且保持了文本生成的实用性。

Feb, 2024

评估大规模视觉语言模型中的物体错构

通过对大型视觉语言模型的系统研究，本论文发现大型视觉语言模型容易出现物体幻影问题，并探讨了视觉指导对幻觉的影响，提出了一种改进的评估方法 POPE，以更稳定和灵活的方式评估物体幻影问题。

May, 2023

通过精细的人工智能反馈检测和缓解大型视觉语言模型中的幻觉

通过细粒度人工智能反馈，检测和减轻大规模视觉语言模型中的幻觉现象。通过生成小规模句子级幻觉注释数据集和使用检测 - 重写流程来自动构建偏好数据集，进一步区分幻觉的严重程度，将幻觉严重程度纳入偏好学习来减轻大规模视觉语言模型中的幻觉。广泛实验证明了我们方法的有效性。

Apr, 2024

逻辑闭环：在大规模视觉 - 语言模型中揭示物体幻觉

利用逻辑封闭环路的原理，提出了一种基于逻辑一致性探测的对象幻觉检测和缓解框架，命名为 LogicCheckGPT，该方法可以无缝应用于所有现有的大视觉 - 语言模型，并在三个基准测试中的四种模型上进行的全面实验表明了该方法带来的显着改进，证明了其有效性和普适性。

Feb, 2024

寻求真相：一种审问方法用于幻觉检测

通过多个数据集和大型语言模型，包括 Llama-2，对该模型的幻觉水平进行广泛评估，并展示了我们的方法在自动检测幻觉方面的有效性，达到了 87% 的平衡准确率，而无需依赖外部知识。

Mar, 2024

用视觉监督减轻视觉 - 语言模型中的虚构问题

通过引入更详细的视觉注释和更具区分性的视觉模型来提高大型视觉语言模型的训练，使其能够生成更精确的回答，减少幻觉；此外，提出了新的评估基准 RAH-Bench 分为三种不同的幻觉类型，与原始 LLaVA 相比，我们的方法在该基准下实现了 +8.4% 的改进，并在其他模型上取得了广泛的性能提升。

Nov, 2023