ICCVSep, 2023

对比特征遮罩开放词汇视觉变换器

TL;DRCFM-ViT 是一种图像 - 文本预训练方法,具有对开放词汇目标检测进行图像和区域级别表示的同时学习能力。通过将掩码自编码器(MAE)目标与对比学习目标相结合,CFM-ViT 在联合图像 - 文本嵌入空间中进行重构,以比传统的 MAE 方法更好地学习区域级语义。此外,引入位置嵌入丢弃(PED)来解决图像 - 文本预训练和检测微调之间的尺度变化,从而提高检测性能并利用冻结的 ViT 骨干作为区域分类器,避免在检测微调过程中遗忘开放词汇知识。在 LVIS 开放词汇检测基准下,CFM-ViT 实现了 33.9 AP$r$ 的最新成果,超过最佳方法 7.6 个点,并在零样本检测转移方面取得更好的效果。最后,CFM-ViT 获得了强大的图像级表示,在 8 个零样本图像 - 文本检索基准中表现出了优于当前技术水平的成绩。