Feb, 2024

跳过换行符:减少大型视觉语言模型中的幻觉的简单方法

TL;DR最近大型视觉语言模型(LVLMs)在人类语言理解方面展现出了令人印象深刻的能力,但仍面临多模态幻觉的挑战。本文提出一种新的观点,暗示LVLMs中固有的偏见可能是幻觉的关键因素,进而通过识别与段落分割('$ extbackslash n extbackslash n$')相关的语义转变偏差系统地发现这一现象。研究发现,这种模式导致模型推断'$ extbackslash n、 extbackslash n$'之后的内容应与之前的内容明显不同,从而使得'$ extbackslash n、 extbackslash n$'之后的描述具有更多的幻觉性。在多个公开可用的LVLMs上验证了这一假设,并发现在生成的描述中故意插入'$ extbackslash n extbackslash n$'可以诱发更多幻觉。本文提出了一种简单的方法,通过跳过` extbackslash n'的输出来有效减轻LVLMs的幻觉现象。