Mar, 2024

利用指导对比解码减轻大型视觉语言模型中的幻觉

TL;DR大规模视觉 - 语言模型(LVLMs)在从视觉输入中生成上下文详细和连贯的回答方面越来越熟练。然而,它们在多模态决策和开放性生成方面的应用受到幻觉的明显影响,生成的文本不准确地表示了视觉内容。为解决这个问题,本文引入了 Instruction Contrastive Decoding(ICD)方法,这是一种旨在减少 LVLM 推断过程中幻觉的新方法。我们的方法受到了干扰指令明显加剧多模态融合模块幻觉的观察启发。ICD 对标准和干扰指令的分布进行对比,从而增加了对齐的不确定性,并有效地从原始分布中减去了幻觉概念。通过对鉴别性基准(POPE 和 MME)和生成基准(LLaVa-Bench)进行全面实验,我们证明了 ICD 显著减轻了物体级幻觉和属性级幻觉。此外,我们的方法不仅解决了幻觉问题,还显著提升了 LVLM 的一般感知和识别能力。