ICCVAug, 2023

ViLLA: 从真实世界数据中细粒度的视觉 - 语言表示学习

TL;DR通过系统评估,本研究首次证明了在训练数据的两两复杂性增加时,标准视觉语言模型在学习图像区域与文本属性之间的细粒度关系方面存在性能下降问题,为了解决这个问题,研究引入了 ViLLA,通过两个组件(自监督映射模型和对比视觉语言模型)来训练捕捉复杂数据集中图像区域与文本属性的细粒度关系,实验证明 ViLLA 在细粒度推理任务(如零样本目标检测和检索)上表现优于其他视觉语言模型。