大型视觉语言模型中的幻觉研究

Oct, 2024

A Survey of Hallucination in Large Visual Language Models

Wei Lan, Wenyi Chen, Qingfeng Chen, Shirui Pan, Huiyu Zhou...

TL;DR本研究旨在解决大型视觉语言模型（LVLM）中幻觉现象所带来的实际问题。通过综述LVLM的背景、结构以及幻觉产生的主要原因，评估当前的幻觉纠正与减轻工作，并提出未来研究方向，以增强LVLM的可靠性与实用性。研究揭示了幻觉现象对LVLM效能的限制，并强调了提升用户体验的潜在影响。

Abstract

The Large Visual Language Models (LVLMs) enhances user interaction and enriches user experience by integrating visual modality on the basis of the Large Language Models (LLMs). It has demonstrated their powerful information processing and generation capabilities. However, the existence

发现论文，激发创造

评估大规模视觉语言模型中的物体错构

通过对大型视觉语言模型的系统研究，本论文发现大型视觉语言模型容易出现物体幻影问题，并探讨了视觉指导对幻觉的影响，提出了一种改进的评估方法POPE，以更稳定和灵活的方式评估物体幻影问题。

May, 2023

大规模视觉语言模型中的幻觉评估和分析

基于大型语言模型的幻觉评估框架 (HaELM) 提出了对当前大视觉-语言模型 (LVLMs) 进行幻觉评估的方法，并分析了导致幻觉的因素，并提供了缓解幻觉问题的建议。

Aug, 2023

大型语言模型中的幻觉调查：原则、分类、挑战与开放问题

在这份调查中，我们旨在对大型语言模型（LLM）幻像领域的最新进展进行全面而深入的概述。我们从LLM幻像创新分类入手，然后深入探讨了导致幻像的因素。接下来，我们全面介绍了幻像检测方法和基准。此外，我们还相应介绍了用于减轻幻像的代表性方法。最后，我们分析了突出当前限制的挑战，并制定了未来LLM幻像研究的开放问题，旨在描绘发展方向。

Nov, 2023

大型视觉语言模型中的幻觉调查

通过综合调查，我们分析了大型视觉语言模型（LVLMs）中的幻觉问题，以建立一个概览并为未来的缓解工作提供帮助。调查包括对LVLMs中幻觉的概念澄清、幻觉症状的多样性及存在的挑战、以及评估LVLMs幻觉的基准和方法论的概述。此外，我们深入研究了这些幻觉的根本原因，包括对训练数据和模型组件的认知。我们还对缓解幻觉的现有方法进行了批判性回顾，并讨论了关于LVLMs中幻觉的未解问题和未来研究方向。

Feb, 2024

多模态大型语言模型的幻觉：一项调查

综述着重从细致的分类及持盾人儿的划分、评估基准和减轻方式中就多模式大型语言模型（MLLMs）中产生幻觉的原因进行分析，旨在加深对MLLMs中幻觉的理解，并激发该领域的进一步发展。

Apr, 2024

大规模视觉语言模型中的多模态幻觉积聚的调查和缓解

当面临以前产生的幻觉相关查询时，大型视觉-语言模型 (LVLMs) 会受到幻觉的影响而做出错误响应吗？这篇论文提出了一个评估LVLMs行为的框架，结果显示开源 LVLMs 的性能下降了至少 31％，进一步提出了一个名为 Residual Visual Decoding 的无需训练的方法来缓解多模态幻觉扩散现象。

Jun, 2024

减轻大型视觉语言模型中的多语言幻觉

本研究针对大型视觉语言模型（LVLMs）在多语言场景下产生幻觉的问题进行了首次探索，指出该现象比英语环境下更为严重。提出了一种双阶段的多语言幻觉去除框架，通过跨语言对齐方法优化模型输出，显著提高了13种语言的准确率，平均提高19.0%。

Aug, 2024

从像素到标记：重新审视大规模视觉语言模型中的对象幻觉

本研究解决了大规模视觉语言模型（LVLMs）中对象幻觉的问题，强调了现有研究对视觉输入理解不足的片面性，忽视了模型在特征提取和解耦方面的根本缺陷。我们提出了一种新的调优策略PATCH，通过自适应虚拟标记有效提取对象特征，显著提升多个多模态幻觉数据集的表现，旨在提供对LVLMs中幻觉原因的更深刻理解。

Oct, 2024

通过潜在空间引导减少视觉语言模型中的幻觉

本研究解决了大型视觉语言模型（LVLMs）中幻觉现象的问题，该现象源于视觉输入与文本输出之间的不对齐。提出了一种新技术——视觉与文本干预（VTI），该技术在推理过程中引导潜在空间表示，从而提高视觉特征的稳定性，实验结果表明VTI有效减少幻觉现象，并在多个指标上超越基线方法，突显了视觉特征稳定性的重要性。

Oct, 2024

通过潜空间引导减少视觉语言模型的幻觉

本研究解决了大型视觉语言模型中幻觉现象的问题，分析其根本机制及其与大语言模型的不同之处。提出了一种新颖的视觉和文本干预技术（VTI），旨在通过引导潜空间表示来增强视觉特征的稳定性，从而有效减少幻觉现象，并在多项指标上超越基线方法，展示了视觉特征稳定性在视觉语言模型中的关键作用。

Oct, 2024