Jan, 2024

提升图像 - 文本预训练中的细粒度理解

TL;DR我们介绍 SPARC (SPARse Fine-grained Contrastive Alignment),这是一种从图像 - 文本对中预训练更细粒度多模态表示的简单方法。SPARC 结合了精细化的序列损失和对全局图像和文本嵌入进行对比的损失,以同时编码全局和局部信息。我们对这种方法进行了全面评估,并显示在依赖于粗粒度信息的图像级任务(如分类)以及依赖于细粒度信息的区域级任务(如检索、目标检测和分割)上改善了性能。此外,SPARC 改善了模型的准确性和生成图像描述的能力。