Oct, 2024

通过潜空间引导减少视觉语言模型的幻觉

TL;DR本研究解决了大型视觉语言模型中幻觉现象的问题,分析其根本机制及其与大语言模型的不同之处。提出了一种新颖的视觉和文本干预技术(VTI),旨在通过引导潜空间表示来增强视觉特征的稳定性,从而有效减少幻觉现象,并在多项指标上超越基线方法,展示了视觉特征稳定性在视觉语言模型中的关键作用。