Nov, 2021

FILIP:细粒度的交互式语言图像预训练

TL;DR本文介绍一种利用跨模态后期交互机制实现精细级别对齐的大规模 Fine-grained 互动语言 - 图像预训练(FILIP)方法,并构建了一个用于预训练的新的大规模图像 - 文本对数据集。实验结果显示,FILIP 在多个视觉 - 语言任务中实现了最先进的性能,包括零 - shot 图像分类和图像 - 文本检索。