Jan, 2024
提升图像-文本预训练中的细粒度理解
Improving fine-grained understanding in image-text pre-training
TL;DR我们介绍SPARC (SPARse Fine-grained Contrastive Alignment),这是一种从图像-文本对中预训练更细粒度多模态表示的简单方法。SPARC结合了精细化的序列损失和对全局图像和文本嵌入进行对比的损失,以同时编码全局和局部信息。我们对这种方法进行了全面评估,并显示在依赖于粗粒度信息的图像级任务(如分类)以及依赖于细粒度信息的区域级任务(如检索、目标检测和分割)上改善了性能。此外,SPARC改善了模型的准确性和生成图像描述的能力。