Nov, 2021

FILIP:细粒度的交互式语言图像预训练

TL;DR本文介绍一种利用跨模态后期交互机制实现精细级别对齐的大规模Fine-grained互动语言-图像预训练(FILIP)方法,并构建了一个用于预训练的新的大规模图像-文本对数据集。实验结果显示,FILIP在多个视觉-语言任务中实现了最先进的性能,包括零-shot图像分类和图像-文本检索。