HELPD：通过层次反馈学习与视觉增强惩罚解码减轻大规模视觉语言模型的幻觉

Sep, 2024

HELPD：通过层次反馈学习与视觉增强惩罚解码减轻大规模视觉语言模型的幻觉

HELPD: Mitigating Hallucination of LVLMs by Hierarchical Feedback Learning with Vision-enhanced Penalty Decoding

Fan Yuan, Chi Qin, Xiaogang Xu, Piji Li

TL;DR本研究解决了大规模视觉语言模型（LVLMs）在视觉与语言任务中出现的多模态幻觉问题，提出了一种新的层次反馈学习框架（HELPD），通过在物体和句子语义层面上提供幻觉反馈来减少幻觉现象。研究表明，该方法在边际训练的情况下能有效降低超过15%的幻觉，并能与任何LVLM无缝集成，显著提升模型的生成文本质量。

Abstract

Large Vision-Language Models (LVLMs) have shown remarkable performance on many visual-language tasks. However, these models still suffer from multimodal hallucination, which means the generation of objects or content that violates the images. Many existing work detects hallucination by

发现论文，激发创造

可信并非忠实：探究视觉-语言预训练中对象幻觉问题

该论文系统研究了视觉语言预训练模型中对象幻觉问题，从近期最先进的VLP模型，VLP中不同类型的图像编码方式，以及VLP目标的不同方面入手，提出了一种名为ObjMLM的简单而有效的VLP损失，能够减少对象幻觉。实验表明，ObjMLM可以将对象幻觉降低多达17.4%。

Oct, 2022

大型视觉语言模型中的幻觉检测与预防

介绍M-HalDetect，一个用于训练和评估幻觉检测和预防模型的多模态幻觉检测数据集。使用Fine-grained Direct Preference Optimization和拒绝抽样方法，成功减少了幻觉率，为视觉问题回答任务提供了重要的改进。

Aug, 2023

用视觉监督减轻视觉-语言模型中的虚构问题

通过引入更详细的视觉注释和更具区分性的视觉模型来提高大型视觉语言模型的训练，使其能够生成更精确的回答，减少幻觉；此外，提出了新的评估基准 RAH-Bench 分为三种不同的幻觉类型，与原始 LLaVA 相比，我们的方法在该基准下实现了 +8.4% 的改进，并在其他模型上取得了广泛的性能提升。

Nov, 2023

见之于眼：通过CLIP引导解码减轻大型视觉语言模型产生的幻觉

大规模视觉语言模型容易出现对象幻觉问题，本文提出了使用CLIP引导解码的方法来减少对象幻觉，通过增强生成文本与图像之间的视觉联系，有效缓解了多个视觉语言模型家族中的对象幻觉问题，并且保持了文本生成的实用性。

Feb, 2024

多模态图像幻觉控制：视觉信息的连接

通过引入M3ID多模态互信息解码方法对先前训练的视觉语言生成模型进行推理时的增强，能够减少幻觉并提高模型的依赖性，从而减少视觉无依据的回答。

Mar, 2024

利用指导对比解码减轻大型视觉语言模型中的幻觉

大规模视觉-语言模型（LVLMs）在从视觉输入中生成上下文详细和连贯的回答方面越来越熟练。然而，它们在多模态决策和开放性生成方面的应用受到幻觉的明显影响，生成的文本不准确地表示了视觉内容。为解决这个问题，本文引入了Instruction Contrastive Decoding（ICD）方法，这是一种旨在减少LVLM推断过程中幻觉的新方法。我们的方法受到了干扰指令明显加剧多模态融合模块幻觉的观察启发。ICD对标准和干扰指令的分布进行对比，从而增加了对齐的不确定性，并有效地从原始分布中减去了幻觉概念。通过对鉴别性基准（POPE和MME）和生成基准（LLaVa-Bench）进行全面实验，我们证明了ICD显著减轻了物体级幻觉和属性级幻觉。此外，我们的方法不仅解决了幻觉问题，还显著提升了LVLM的一般感知和识别能力。

Mar, 2024

通过精细的人工智能反馈检测和缓解大型视觉语言模型中的幻觉

通过细粒度人工智能反馈，检测和减轻大规模视觉语言模型中的幻觉现象。通过生成小规模句子级幻觉注释数据集和使用检测-重写流程来自动构建偏好数据集，进一步区分幻觉的严重程度，将幻觉严重程度纳入偏好学习来减轻大规模视觉语言模型中的幻觉。广泛实验证明了我们方法的有效性。

Apr, 2024

更关注图像：一种无训练方法以减轻大型视觉语言模型中的幻觉现象

本研究针对大型视觉语言模型（LVLMs）中存在的图像特征与语言模型间的规模不匹配问题，造成了模型过于依赖语言生成，进而导致幻觉现象。本文提出了一种无训练算法，通过动态调整图像令牌的注意力权重，提升其在多模态理解中的重要性，从而有效减少幻觉输出，增强模型对图像内容的关注。

Jul, 2024

观察、比较与决策：通过多视角多路径推理缓解大规模视觉语言模型中的幻觉问题

本研究解决了大规模视觉语言模型（LVLMs）在多模态理解中产生幻觉的问题。提出了一种无需训练的框架MVP，通过多视角信息搜索策略和多路径推理来提高输出的准确性。实验表明，该方法显著减少了LVLMs中的幻觉现象，提升了模型的表现。

Aug, 2024

通过摘要引导解码减轻大型视觉-语言模型中的幻觉现象

本研究解决了大型视觉-语言模型（LVLM）在生成基于视觉输入的响应时容易出现幻觉的问题。通过引入摘要引导解码（SGD）方法，研究表明该方法能够有效减少模型对语言先验的依赖，显著提升图像信息的利用率，并在对象幻觉基准测试中取得了最先进的表现，展现出更好的精确度与召回率平衡。

Oct, 2024