Dec, 2023

MIVC:用于视觉语言模型的多实例视觉组件

TL;DR本文提出了MIVC,一种通用的多实例可视化组件,通过神经网络以排列不变的方式汇总视觉表示,以填补各种图像输入与预训练语言模型之间的差距。我们展示了MIVC如何整合到视觉语言模型中,显著提高了视觉问答、分类和标题任务的模型性能,并使用公共可用的电子商务数据集上的每个产品的多个图像展示了该组件对下游任务的贡献的见解。