CODE:对抗大型多模态模型中的幻觉现象的自动生成描述的对比
大规模视觉 - 语言模型(LVLMs)在从视觉输入中生成上下文详细和连贯的回答方面越来越熟练。然而,它们在多模态决策和开放性生成方面的应用受到幻觉的明显影响,生成的文本不准确地表示了视觉内容。为解决这个问题,本文引入了 Instruction Contrastive Decoding(ICD)方法,这是一种旨在减少 LVLM 推断过程中幻觉的新方法。我们的方法受到了干扰指令明显加剧多模态融合模块幻觉的观察启发。ICD 对标准和干扰指令的分布进行对比,从而增加了对齐的不确定性,并有效地从原始分布中减去了幻觉概念。通过对鉴别性基准(POPE 和 MME)和生成基准(LLaVa-Bench)进行全面实验,我们证明了 ICD 显著减轻了物体级幻觉和属性级幻觉。此外,我们的方法不仅解决了幻觉问题,还显著提升了 LVLM 的一般感知和识别能力。
Mar, 2024
提出的 “感应 - 对比解码” 策略通过降低幻觉导致的不真实预测,增强了大型语言模型生成内容的可信度。在多个模型规模和系列上的实验证明,该方法能有效提高大型语言模型的内容真实性。
Dec, 2023
大视觉语言模型(LVLMs)通过视觉识别和语言理解相结合,生成连贯且与上下文相关的内容,但仍然存在物体幻觉问题。本文介绍一种名为 Visual Contrastive Decoding(VCD)的简单且无需训练的方法,通过对比原始和失真的视觉输入产生的输出分布,有效降低统计偏差和单模式先验产生物体幻觉的影响,确保生成的内容与视觉输入密切相关,从而产生上下文准确的输出。实验证明,VCD 不需要额外的训练或使用外部工具,在不同的 LVLM 族群中显著减轻了物体幻觉问题。除减轻物体幻觉问题外,VCD 在通用 LVLM 基准测试中也表现出色,展示了其广泛的适用性。
Nov, 2023
利用 Contrary Bradley-Terry Model 进行优化,引入 Hallucination-Induced Optimization 策略,提高 Large Visual Language Models 处理视觉对比解码中的幻觉问题的效果。
May, 2024
本文主要研究了多模式大型语言模型(MLLMs)在生成文本时存在的对象虚构问题,并提出了一种对抗调整的方法来减轻虚构现象,其中通过选择性地改变真实信息来通过生成性数据增强产生虚构的标记,从而提高真实标记相对于虚构标记的相对可能性,实验证实了这种方法在减轻虚构现象上的有效性,而且这种方法简单、快速,需要很少的训练且在推理过程中没有额外的开销。
May, 2024
机器翻译中的幻觉和目标脱靶翻译一直是未解决的问题,特别是对于低资源语言和大规模多语种模型。本文介绍了一种修改解码目标的方法,用于缓解这两种失败情况,而无需重新训练或使用外部模型。在实验证明,这些方法能有效抑制幻觉和目标脱靶翻译,在 57 个测试的翻译方向上平均提高了 1.7 和 1.4 个 chrF2 分数。在英 - 德的概念验证中,我们还展示了我们可以使用 Llama 2 聊天模型来抑制目标脱靶翻译,证明了该方法在 LLM 机器翻译中的可应用性。
Sep, 2023
通过广泛系统实验,我们展示了传统方法无法解释 LLMs 在实践中为什么会产生幻觉,并通过大量内存专家的混合来增强 LLMs,可以轻松地记忆大数据集,为去除幻觉设计了 Lamini-1 模型。
Jun, 2024
对大型视觉语言模型(LVLMs)的幻觉问题进行了深入分析,发现了几个新的洞察力,提出了一种简单、稳健和无需训练的方法(VDGD)来减轻幻觉,实验结果表明 VDGD 在减少幻觉方面显著优于其他基线方法。
May, 2024