Aug, 2022

MILAN: 基于语言辅助表征的掩蔽图像预训练

TL;DR本文提出了一种基于自注意力和掩码自编码器的图像预训练方法 MILAN,通过嵌入语言监督来生成语义信息丰富的图像特征,通过实验证明,该方法在多项计算机视觉任务中优于现有方法。