跳过换行符：减少大型视觉语言模型中的幻觉的简单方法

Feb, 2024

跳过换行符：减少大型视觉语言模型中的幻觉的简单方法

Skip $\textbackslash n$: A simple method to reduce hallucination in Large Vision-Language Models

Zongbo Han, Zechen Bai, Haiyang Mei, Qianli Xu, Changqing Zhang...

TL;DR最近大型视觉语言模型（LVLMs）在人类语言理解方面展现出了令人印象深刻的能力，但仍面临多模态幻觉的挑战。本文提出一种新的观点，暗示LVLMs中固有的偏见可能是幻觉的关键因素，进而通过识别与段落分割（'$ extbackslash n extbackslash n$'）相关的语义转变偏差系统地发现这一现象。研究发现，这种模式导致模型推断'$ extbackslash n、 extbackslash n$'之后的内容应与之前的内容明显不同，从而使得'$ extbackslash n、 extbackslash n$'之后的描述具有更多的幻觉性。在多个公开可用的LVLMs上验证了这一假设，并发现在生成的描述中故意插入'$ extbackslash n extbackslash n$'可以诱发更多幻觉。本文提出了一种简单的方法，通过跳过` extbackslash n'的输出来有效减轻LVLMs的幻觉现象。

Abstract

Recent advancements in large vision-language models (LVLMs) have demonstrated impressive capability in visual information understanding with human language. Despite these advances, LVLMs still face challenges with multi

发现论文，激发创造

评估大规模视觉语言模型中的物体错构

通过对大型视觉语言模型的系统研究，本论文发现大型视觉语言模型容易出现物体幻影问题，并探讨了视觉指导对幻觉的影响，提出了一种改进的评估方法POPE，以更稳定和灵活的方式评估物体幻影问题。

May, 2023

基于幻觉增强对比学习的多模态大型语言模型

本文从表示学习的新角度解决了多模态大型语言模型中的幻觉问题，并通过引入对比学习的方法，在多个基准测试中证明了减少幻觉和提高性能的有效性。

Dec, 2023

大型视觉语言模型中的幻觉调查

通过综合调查，我们分析了大型视觉语言模型（LVLMs）中的幻觉问题，以建立一个概览并为未来的缓解工作提供帮助。调查包括对LVLMs中幻觉的概念澄清、幻觉症状的多样性及存在的挑战、以及评估LVLMs幻觉的基准和方法论的概述。此外，我们深入研究了这些幻觉的根本原因，包括对训练数据和模型组件的认知。我们还对缓解幻觉的现有方法进行了批判性回顾，并讨论了关于LVLMs中幻觉的未解问题和未来研究方向。

Feb, 2024

多模态大型语言模型的幻觉：一项调查

综述着重从细致的分类及持盾人儿的划分、评估基准和减轻方式中就多模式大型语言模型（MLLMs）中产生幻觉的原因进行分析，旨在加深对MLLMs中幻觉的理解，并激发该领域的进一步发展。

Apr, 2024

大规模视觉语言模型中的多模态幻觉积聚的调查和缓解

当面临以前产生的幻觉相关查询时，大型视觉-语言模型 (LVLMs) 会受到幻觉的影响而做出错误响应吗？这篇论文提出了一个评估LVLMs行为的框架，结果显示开源 LVLMs 的性能下降了至少 31％，进一步提出了一个名为 Residual Visual Decoding 的无需训练的方法来缓解多模态幻觉扩散现象。

Jun, 2024

通过主动检索增强减轻大型视觉-语言模型的幻觉

本文针对大型视觉-语言模型（LVLM）在图像理解中常出现的幻觉问题，提出了一种新颖的主动检索增强框架（ARA），旨在通过优化检索目标、检索方法和检索时机来减轻模型生成不实回应的情况。研究表明，适当的检索机制和合理的检索时机能够有效降低幻觉现象，从而为LVLM的应用提供了重要的实践参考与理论支持。

Aug, 2024

更关注图像：一种无训练方法以减轻大型视觉语言模型中的幻觉现象

本研究针对大型视觉语言模型（LVLMs）中存在的图像特征与语言模型间的规模不匹配问题，造成了模型过于依赖语言生成，进而导致幻觉现象。本文提出了一种无训练算法，通过动态调整图像令牌的注意力权重，提升其在多模态理解中的重要性，从而有效减少幻觉输出，增强模型对图像内容的关注。

Jul, 2024

Hallu-PI：在扰动输入下评估多模态大型语言模型的幻觉

本研究针对多模态大型语言模型（MLLMs）在扰动输入下产生不一致内容的问题，提出了第一个专门评估此类幻觉的基准Hallu-PI。我们的实验表明，这些模型在面对扰动输入时的幻觉现象显著，揭示了MLLMs在处理不同类型幻觉时的严重偏差，从而为后续研究提供了新的方向。

Aug, 2024

观察、比较与决策：通过多视角多路径推理缓解大规模视觉语言模型中的幻觉问题

本研究解决了大规模视觉语言模型（LVLMs）在多模态理解中产生幻觉的问题。提出了一种无需训练的框架MVP，通过多视角信息搜索策略和多路径推理来提高输出的准确性。实验表明，该方法显著减少了LVLMs中的幻觉现象，提升了模型的表现。

Aug, 2024

通过摘要引导解码减轻大型视觉-语言模型中的幻觉现象

本研究解决了大型视觉-语言模型（LVLM）在生成基于视觉输入的响应时容易出现幻觉的问题。通过引入摘要引导解码（SGD）方法，研究表明该方法能够有效减少模型对语言先验的依赖，显著提升图像信息的利用率，并在对象幻觉基准测试中取得了最先进的表现，展现出更好的精确度与召回率平衡。

Oct, 2024