大型视觉语言模型中的幻觉调查

Feb, 2024

A Survey on Hallucination in Large Vision-Language Models

Hanchao Liu, Wenyuan Xue, Yifei Chen, Dapeng Chen, Xiutian Zhao...

TL;DR通过综合调查，我们分析了大型视觉语言模型（LVLMs）中的幻觉问题，以建立一个概览并为未来的缓解工作提供帮助。调查包括对LVLMs中幻觉的概念澄清、幻觉症状的多样性及存在的挑战、以及评估LVLMs幻觉的基准和方法论的概述。此外，我们深入研究了这些幻觉的根本原因，包括对训练数据和模型组件的认知。我们还对缓解幻觉的现有方法进行了批判性回顾，并讨论了关于LVLMs中幻觉的未解问题和未来研究方向。

Abstract

Recent development of large vision-language models (LVLMs) has attracted growing attention within the AI landscape for its practical implementation potential. However, ``hallucination'', or more specifically, the

发现论文，激发创造

评估大规模视觉语言模型中的物体错构

通过对大型视觉语言模型的系统研究，本论文发现大型视觉语言模型容易出现物体幻影问题，并探讨了视觉指导对幻觉的影响，提出了一种改进的评估方法POPE，以更稳定和灵活的方式评估物体幻影问题。

May, 2023

大规模视觉语言模型中的幻觉评估和分析

基于大型语言模型的幻觉评估框架 (HaELM) 提出了对当前大视觉-语言模型 (LVLMs) 进行幻觉评估的方法，并分析了导致幻觉的因素，并提供了缓解幻觉问题的建议。

Aug, 2023

大型语言模型中的幻觉调查：原则、分类、挑战与开放问题

在这份调查中，我们旨在对大型语言模型（LLM）幻像领域的最新进展进行全面而深入的概述。我们从LLM幻像创新分类入手，然后深入探讨了导致幻像的因素。接下来，我们全面介绍了幻像检测方法和基准。此外，我们还相应介绍了用于减轻幻像的代表性方法。最后，我们分析了突出当前限制的挑战，并制定了未来LLM幻像研究的开放问题，旨在描绘发展方向。

Nov, 2023

多模态大型语言模型的幻觉：一项调查

综述着重从细致的分类及持盾人儿的划分、评估基准和减轻方式中就多模式大型语言模型（MLLMs）中产生幻觉的原因进行分析，旨在加深对MLLMs中幻觉的理解，并激发该领域的进一步发展。

Apr, 2024

大规模视觉语言模型中的多模态幻觉积聚的调查和缓解

当面临以前产生的幻觉相关查询时，大型视觉-语言模型 (LVLMs) 会受到幻觉的影响而做出错误响应吗？这篇论文提出了一个评估LVLMs行为的框架，结果显示开源 LVLMs 的性能下降了至少 31％，进一步提出了一个名为 Residual Visual Decoding 的无需训练的方法来缓解多模态幻觉扩散现象。

Jun, 2024

通过语言对比解码（LCD）减少大型视觉语言模型中的幻觉

本研究解决了大型视觉语言模型（LVLMs）在处理图像和文本输入时出现的对象幻觉问题，提出了一种新的语言对比解码（LCD）算法。该算法利用大型语言模型的分布置信度调整LVLM输出，显著减少了幻觉现象，带来了高达4%的POPE F1分数提升和36%的CHAIR分数降低，表明了其在提高模型性能方面的潜力。

Aug, 2024

从像素到标记：重新审视大规模视觉语言模型中的对象幻觉

本研究解决了大规模视觉语言模型（LVLMs）中对象幻觉的问题，强调了现有研究对视觉输入理解不足的片面性，忽视了模型在特征提取和解耦方面的根本缺陷。我们提出了一种新的调优策略PATCH，通过自适应虚拟标记有效提取对象特征，显著提升多个多模态幻觉数据集的表现，旨在提供对LVLMs中幻觉原因的更深刻理解。

Oct, 2024

通过潜在空间引导减少视觉语言模型中的幻觉

本研究解决了大型视觉语言模型（LVLMs）中幻觉现象的问题，该现象源于视觉输入与文本输出之间的不对齐。提出了一种新技术——视觉与文本干预（VTI），该技术在推理过程中引导潜在空间表示，从而提高视觉特征的稳定性，实验结果表明VTI有效减少幻觉现象，并在多个指标上超越基线方法，突显了视觉特征稳定性的重要性。

Oct, 2024

大型视觉语言模型中的幻觉研究

本研究旨在解决大型视觉语言模型（LVLM）中幻觉现象所带来的实际问题。通过综述LVLM的背景、结构以及幻觉产生的主要原因，评估当前的幻觉纠正与减轻工作，并提出未来研究方向，以增强LVLM的可靠性与实用性。研究揭示了幻觉现象对LVLM效能的限制，并强调了提升用户体验的潜在影响。

Oct, 2024

通过潜空间引导减少视觉语言模型的幻觉

本研究解决了大型视觉语言模型中幻觉现象的问题，分析其根本机制及其与大语言模型的不同之处。提出了一种新颖的视觉和文本干预技术（VTI），旨在通过引导潜空间表示来增强视觉特征的稳定性，从而有效减少幻觉现象，并在多项指标上超越基线方法，展示了视觉特征稳定性在视觉语言模型中的关键作用。

Oct, 2024