Nov, 2023

通过视觉对比解码减轻大型视觉语言模型中的物体幻觉

TL;DR大视觉语言模型(LVLMs)通过视觉识别和语言理解相结合,生成连贯且与上下文相关的内容,但仍然存在物体幻觉问题。本文介绍一种名为 Visual Contrastive Decoding(VCD)的简单且无需训练的方法,通过对比原始和失真的视觉输入产生的输出分布,有效降低统计偏差和单模式先验产生物体幻觉的影响,确保生成的内容与视觉输入密切相关,从而产生上下文准确的输出。实验证明,VCD 不需要额外的训练或使用外部工具,在不同的 LVLM 族群中显著减轻了物体幻觉问题。除减轻物体幻觉问题外,VCD 在通用 LVLM 基准测试中也表现出色,展示了其广泛的适用性。