Oct, 2024

无监督基础下的大型多模态模型中的新兴像素定位

TL;DR当前大型多模态模型面临着定位语言组件与视觉实体之间关系的挑战。本文提出了一种“关注与分割”的方法,展示了在无明确定位监督的情况下,模型可以自发地培养出基础能力,并通过引入基于扩散的视觉编码器,提升了模型的定位能力。研究结果表明,我们的方法在定位会话生成任务中未使用任何定位监督,仍表现出竞争力,在基础面具召回率上超过了大量监督模型。