Sep, 2023

对比特征遮罩开放词汇视觉变换器

TL;DRCFM-ViT是一种图像-文本预训练方法,具有对开放词汇目标检测进行图像和区域级别表示的同时学习能力。通过将掩码自编码器(MAE)目标与对比学习目标相结合,CFM-ViT在联合图像-文本嵌入空间中进行重构,以比传统的MAE方法更好地学习区域级语义。此外,引入位置嵌入丢弃(PED)来解决图像-文本预训练和检测微调之间的尺度变化,从而提高检测性能并利用冻结的ViT骨干作为区域分类器,避免在检测微调过程中遗忘开放词汇知识。在LVIS开放词汇检测基准下,CFM-ViT实现了33.9 AP$r$的最新成果,超过最佳方法7.6个点,并在零样本检测转移方面取得更好的效果。最后,CFM-ViT获得了强大的图像级表示,在8个零样本图像-文本检索基准中表现出了优于当前技术水平的成绩。