CODE：对抗大型多模态模型中的幻觉现象的自动生成描述的对比

Jun, 2024

CODE：对抗大型多模态模型中的幻觉现象的自动生成描述的对比

CODE: Contrasting Self-generated Description to Combat Hallucination in Large Multi-modal Models

Junho Kim, Hyunjun Kim, Yeonju Kim, Yong Man Ro

TL;DR本文介绍了一种基于对比的解码方法 CODE，它利用自生成的描述作为对比参考，以解决大型多模式模型 (LMMs) 中幻觉问题，并显著减少幻觉并提高跨模态一致性。

Abstract

large multi-modal models (LMMs) have recently demonstrated remarkable abilities in visual context understanding and coherent response generation. However, alongside these advancements, the issue of →

large multi-modal models visual context understanding hallucinations countering description contrastive decoding cross-modal consistency

发现论文，激发创造

利用指导对比解码减轻大型视觉语言模型中的幻觉

大规模视觉 - 语言模型（LVLMs）在从视觉输入中生成上下文详细和连贯的回答方面越来越熟练。然而，它们在多模态决策和开放性生成方面的应用受到幻觉的明显影响，生成的文本不准确地表示了视觉内容。为解决这个问题，本文引入了 Instruction Contrastive Decoding（ICD）方法，这是一种旨在减少 LVLM 推断过程中幻觉的新方法。我们的方法受到了干扰指令明显加剧多模态融合模块幻觉的观察启发。ICD 对标准和干扰指令的分布进行对比，从而增加了对齐的不确定性，并有效地从原始分布中减去了幻觉概念。通过对鉴别性基准（POPE 和 MME）和生成基准（LLaVa-Bench）进行全面实验，我们证明了 ICD 显著减轻了物体级幻觉和属性级幻觉。此外，我们的方法不仅解决了幻觉问题，还显著提升了 LVLM 的一般感知和识别能力。

Mar, 2024

基于幻觉增强对比学习的多模态大型语言模型

本文从表示学习的新角度解决了多模态大型语言模型中的幻觉问题，并通过引入对比学习的方法，在多个基准测试中证明了减少幻觉和提高性能的有效性。

Dec, 2023

通过引发幻觉减轻大型语言模型的幻觉

提出的 “感应 - 对比解码” 策略通过降低幻觉导致的不真实预测，增强了大型语言模型生成内容的可信度。在多个模型规模和系列上的实验证明，该方法能有效提高大型语言模型的内容真实性。

Dec, 2023

通过视觉对比解码减轻大型视觉语言模型中的物体幻觉

大视觉语言模型（LVLMs）通过视觉识别和语言理解相结合，生成连贯且与上下文相关的内容，但仍然存在物体幻觉问题。本文介绍一种名为 Visual Contrastive Decoding（VCD）的简单且无需训练的方法，通过对比原始和失真的视觉输入产生的输出分布，有效降低统计偏差和单模式先验产生物体幻觉的影响，确保生成的内容与视觉输入密切相关，从而产生上下文准确的输出。实验证明，VCD 不需要额外的训练或使用外部工具，在不同的 LVLM 族群中显著减轻了物体幻觉问题。除减轻物体幻觉问题外，VCD 在通用 LVLM 基准测试中也表现出色，展示了其广泛的适用性。

Nov, 2023

通过诱导式优化减轻大型视觉语言模型中的幻觉

利用 Contrary Bradley-Terry Model 进行优化，引入 Hallucination-Induced Optimization 策略，提高 Large Visual Language Models 处理视觉对比解码中的幻觉问题的效果。

May, 2024

通过数据增强对比调整减轻物体幻觉

本文主要研究了多模式大型语言模型（MLLMs）在生成文本时存在的对象虚构问题，并提出了一种对抗调整的方法来减轻虚构现象，其中通过选择性地改变真实信息来通过生成性数据增强产生虚构的标记，从而提高真实标记相对于虚构标记的相对可能性，实验证实了这种方法在减轻虚构现象上的有效性，而且这种方法简单、快速，需要很少的训练且在推理过程中没有额外的开销。

May, 2024

使用源对比和语言对比解码减轻幻觉和目标外机器翻译

机器翻译中的幻觉和目标脱靶翻译一直是未解决的问题，特别是对于低资源语言和大规模多语种模型。本文介绍了一种修改解码目标的方法，用于缓解这两种失败情况，而无需重新训练或使用外部模型。在实验证明，这些方法能有效抑制幻觉和目标脱靶翻译，在 57 个测试的翻译方向上平均提高了 1.7 和 1.4 个 chrF2 分数。在英 - 德的概念验证中，我们还展示了我们可以使用 Llama 2 聊天模型来抑制目标脱靶翻译，证明了该方法在 LLM 机器翻译中的可应用性。

Sep, 2023

多模态图像幻觉控制：视觉信息的连接

通过引入 M3ID 多模态互信息解码方法对先前训练的视觉语言生成模型进行推理时的增强，能够减少幻觉并提高模型的依赖性，从而减少视觉无依据的回答。

Mar, 2024

消除 LLM 幻觉需要重新思考泛化

通过广泛系统实验，我们展示了传统方法无法解释 LLMs 在实践中为什么会产生幻觉，并通过大量内存专家的混合来增强 LLMs，可以轻松地记忆大数据集，为去除幻觉设计了 Lamini-1 模型。

Jun, 2024

VDGD：通过弥合视觉感知差距来减轻认知提示中的低可信度语言幻觉

对大型视觉语言模型（LVLMs）的幻觉问题进行了深入分析，发现了几个新的洞察力，提出了一种简单、稳健和无需训练的方法（VDGD）来减轻幻觉，实验结果表明 VDGD 在减少幻觉方面显著优于其他基线方法。

May, 2024