Oct, 2024

从像素到标记:重新审视大规模视觉语言模型中的对象幻觉

TL;DR本研究解决了大规模视觉语言模型(LVLMs)中对象幻觉的问题,强调了现有研究对视觉输入理解不足的片面性,忽视了模型在特征提取和解耦方面的根本缺陷。我们提出了一种新的调优策略PATCH,通过自适应虚拟标记有效提取对象特征,显著提升多个多模态幻觉数据集的表现,旨在提供对LVLMs中幻觉原因的更深刻理解。