在回答之前仔细考虑：用于缓解多模态大型语言模型幻觉的记忆空间视觉重追

Oct, 2024

在回答之前仔细考虑：用于缓解多模态大型语言模型幻觉的记忆空间视觉重追

Look Twice Before You Answer: Memory-Space Visual Retracing for Hallucination Mitigation in Multimodal Large Language Models

HTML

PDF

Xin Zou, Yizhou Wang, Yibo Yan, Sirui Huang, Kening Zheng...

TL;DR本研究解决了多模态大型语言模型在面对视觉输入时产生幻觉的问题。我们提出了记忆空间视觉重追（MemVR），这一新颖的方法通过将视觉提示作为补充证据重新注入模型，显著减少了幻觉现象，且在各项基准测试中表现优异，显示了其广泛适用的潜力。

Abstract

Despite their impressive capabilities, Multimodal Large Language Models (MLLMs) are susceptible to hallucinations, especially assertively fabricating content not present in the visual inputs. To address the aforementioned challenge, we follow a common cognitive process - when one's ini

发现论文，激发创造

用视觉监督减轻视觉-语言模型中的虚构问题

通过引入更详细的视觉注释和更具区分性的视觉模型来提高大型视觉语言模型的训练，使其能够生成更精确的回答，减少幻觉；此外，提出了新的评估基准 RAH-Bench 分为三种不同的幻觉类型，与原始 LLaVA 相比，我们的方法在该基准下实现了 +8.4% 的改进，并在其他模型上取得了广泛的性能提升。

Nov, 2023

跳过换行符：减少大型视觉语言模型中的幻觉的简单方法

最近大型视觉语言模型（LVLMs）在人类语言理解方面展现出了令人印象深刻的能力，但仍面临多模态幻觉的挑战。本文提出一种新的观点，暗示LVLMs中固有的偏见可能是幻觉的关键因素，进而通过识别与段落分割（'$ extbackslash n extbackslash n$'）相关的语义转变偏差系统地发现这一现象。研究发现，这种模式导致模型推断'$ extbackslash n、 extbackslash n$'之后的内容应与之前的内容明显不同，从而使得'$ extbackslash n、 extbackslash n$'之后的描述具有更多的幻觉性。在多个公开可用的LVLMs上验证了这一假设，并发现在生成的描述中故意插入'$ extbackslash n extbackslash n$'可以诱发更多幻觉。本文提出了一种简单的方法，通过跳过` extbackslash n'的输出来有效减轻LVLMs的幻觉现象。

Feb, 2024

多模态图像幻觉控制：视觉信息的连接

通过引入M3ID多模态互信息解码方法对先前训练的视觉语言生成模型进行推理时的增强，能够减少幻觉并提高模型的依赖性，从而减少视觉无依据的回答。

Mar, 2024

反思后比较策略减轻视觉错觉

通过提出Pensieve方法，研究发现多模态大语言模型在处理视觉幻觉时会同时支持准确和不存在的内容，Pensieve方法通过在推理中回溯相关图像作为参考，并将其与测试图像进行比较，从而减少视觉幻觉现象，并提升图像描述的细节和特定性。

Mar, 2024

多模态大型语言模型的幻觉：一项调查

综述着重从细致的分类及持盾人儿的划分、评估基准和减轻方式中就多模式大型语言模型（MLLMs）中产生幻觉的原因进行分析，旨在加深对MLLMs中幻觉的理解，并激发该领域的进一步发展。

Apr, 2024

大规模视觉语言模型中的多模态幻觉积聚的调查和缓解

当面临以前产生的幻觉相关查询时，大型视觉-语言模型 (LVLMs) 会受到幻觉的影响而做出错误响应吗？这篇论文提出了一个评估LVLMs行为的框架，结果显示开源 LVLMs 的性能下降了至少 31％，进一步提出了一个名为 Residual Visual Decoding 的无需训练的方法来缓解多模态幻觉扩散现象。

Jun, 2024

通过主动检索增强减轻大型视觉-语言模型的幻觉

本文针对大型视觉-语言模型（LVLM）在图像理解中常出现的幻觉问题，提出了一种新颖的主动检索增强框架（ARA），旨在通过优化检索目标、检索方法和检索时机来减轻模型生成不实回应的情况。研究表明，适当的检索机制和合理的检索时机能够有效降低幻觉现象，从而为LVLM的应用提供了重要的实践参考与理论支持。

Aug, 2024

Hallu-PI：在扰动输入下评估多模态大型语言模型的幻觉

本研究针对多模态大型语言模型（MLLMs）在扰动输入下产生不一致内容的问题，提出了第一个专门评估此类幻觉的基准Hallu-PI。我们的实验表明，这些模型在面对扰动输入时的幻觉现象显著，揭示了MLLMs在处理不同类型幻觉时的严重偏差，从而为后续研究提供了新的方向。

Aug, 2024

多模态大型语言模型能看见吗？动态修正解码用于减轻幻觉现象

本研究解决了多模态大型语言模型（MLLMs）在生成输出时出现幻觉现象的根本原因尚不明了的问题。提出了一种新的动态修正解码方法（DeCo），该方法能适应性地选择适当的前层并将知识比例整合到最终层，从而调整输出。研究表明，DeCo显著降低了幻觉发生率，展现了其在减轻幻觉方面的潜力。

Oct, 2024

通过摘要引导解码减轻大型视觉-语言模型中的幻觉现象

本研究解决了大型视觉-语言模型（LVLM）在生成基于视觉输入的响应时容易出现幻觉的问题。通过引入摘要引导解码（SGD）方法，研究表明该方法能够有效减少模型对语言先验的依赖，显著提升图像信息的利用率，并在对象幻觉基准测试中取得了最先进的表现，展现出更好的精确度与召回率平衡。

Oct, 2024