更关注图像：一种无训练方法以减轻大型视觉语言模型中的幻觉现象

Jul, 2024

更关注图像：一种无训练方法以减轻大型视觉语言模型中的幻觉现象

Paying More Attention to Image: A Training-Free Method for Alleviating Hallucination in LVLMs

Shi Liu, Kecheng Zheng, Wei Chen

TL;DR本研究针对大型视觉语言模型（LVLMs）中存在的图像特征与语言模型间的规模不匹配问题，造成了模型过于依赖语言生成，进而导致幻觉现象。本文提出了一种无训练算法，通过动态调整图像令牌的注意力权重，提升其在多模态理解中的重要性，从而有效减少幻觉输出，增强模型对图像内容的关注。

Abstract

Existing Large Vision-Language Models (LVLMs) primarily align image features of vision encoder with Large Language Models (LLMs) to leverage their superior text generation capabilities. However, the scale disparity between vision encoder and language model may led to LLMs assuming a pr

发现论文，激发创造

用视觉监督减轻视觉-语言模型中的虚构问题

通过引入更详细的视觉注释和更具区分性的视觉模型来提高大型视觉语言模型的训练，使其能够生成更精确的回答，减少幻觉；此外，提出了新的评估基准 RAH-Bench 分为三种不同的幻觉类型，与原始 LLaVA 相比，我们的方法在该基准下实现了 +8.4% 的改进，并在其他模型上取得了广泛的性能提升。

Nov, 2023

跳过换行符：减少大型视觉语言模型中的幻觉的简单方法

最近大型视觉语言模型（LVLMs）在人类语言理解方面展现出了令人印象深刻的能力，但仍面临多模态幻觉的挑战。本文提出一种新的观点，暗示LVLMs中固有的偏见可能是幻觉的关键因素，进而通过识别与段落分割（'$ extbackslash n extbackslash n$'）相关的语义转变偏差系统地发现这一现象。研究发现，这种模式导致模型推断'$ extbackslash n、 extbackslash n$'之后的内容应与之前的内容明显不同，从而使得'$ extbackslash n、 extbackslash n$'之后的描述具有更多的幻觉性。在多个公开可用的LVLMs上验证了这一假设，并发现在生成的描述中故意插入'$ extbackslash n extbackslash n$'可以诱发更多幻觉。本文提出了一种简单的方法，通过跳过` extbackslash n'的输出来有效减轻LVLMs的幻觉现象。

Feb, 2024

目标引导是否真能减少大型视觉语言模型的幻觉？

在LVLM的开放式字幕生成中，细粒度对象定位目标对对象形象幻觉的效果很小或没有效果。

Jun, 2024

大规模视觉语言模型中的多模态幻觉积聚的调查和缓解

当面临以前产生的幻觉相关查询时，大型视觉-语言模型 (LVLMs) 会受到幻觉的影响而做出错误响应吗？这篇论文提出了一个评估LVLMs行为的框架，结果显示开源 LVLMs 的性能下降了至少 31％，进一步提出了一个名为 Residual Visual Decoding 的无需训练的方法来缓解多模态幻觉扩散现象。

Jun, 2024

减轻大型视觉语言模型中的多语言幻觉

本研究针对大型视觉语言模型（LVLMs）在多语言场景下产生幻觉的问题进行了首次探索，指出该现象比英语环境下更为严重。提出了一种双阶段的多语言幻觉去除框架，通过跨语言对齐方法优化模型输出，显著提高了13种语言的准确率，平均提高19.0%。

Aug, 2024

自我反思解码：减轻大型视觉-语言模型的幻觉问题

本研究解决了大型视觉-语言模型（LVLMs）中的“幻觉”问题，该问题阻碍了其实际应用。我们提出了一种新的自我反思解码（SID）方法，通过根据先前的视觉和文本令牌评估视觉令牌的重要性，来有效减少幻觉现象，最终提高文本生成的质量和真实性。实验表明，SID在各种指标上生成的文本幻觉更少且质量更高，无需额外知识或计算负担。

Aug, 2024

观察、比较与决策：通过多视角多路径推理缓解大规模视觉语言模型中的幻觉问题

本研究解决了大规模视觉语言模型（LVLMs）在多模态理解中产生幻觉的问题。提出了一种无需训练的框架MVP，通过多视角信息搜索策略和多路径推理来提高输出的准确性。实验表明，该方法显著减少了LVLMs中的幻觉现象，提升了模型的表现。

Aug, 2024

HELPD：通过层次反馈学习与视觉增强惩罚解码减轻大规模视觉语言模型的幻觉

本研究解决了大规模视觉语言模型（LVLMs）在视觉与语言任务中出现的多模态幻觉问题，提出了一种新的层次反馈学习框架（HELPD），通过在物体和句子语义层面上提供幻觉反馈来减少幻觉现象。研究表明，该方法在边际训练的情况下能有效降低超过15%的幻觉，并能与任何LVLM无缝集成，显著提升模型的生成文本质量。

Sep, 2024

从像素到标记：重新审视大规模视觉语言模型中的对象幻觉

本研究解决了大规模视觉语言模型（LVLMs）中对象幻觉的问题，强调了现有研究对视觉输入理解不足的片面性，忽视了模型在特征提取和解耦方面的根本缺陷。我们提出了一种新的调优策略PATCH，通过自适应虚拟标记有效提取对象特征，显著提升多个多模态幻觉数据集的表现，旨在提供对LVLMs中幻觉原因的更深刻理解。

Oct, 2024

通过摘要引导解码减轻大型视觉-语言模型中的幻觉现象

本研究解决了大型视觉-语言模型（LVLM）在生成基于视觉输入的响应时容易出现幻觉的问题。通过引入摘要引导解码（SGD）方法，研究表明该方法能够有效减少模型对语言先验的依赖，显著提升图像信息的利用率，并在对象幻觉基准测试中取得了最先进的表现，展现出更好的精确度与召回率平衡。

Oct, 2024