Mar, 2024

面向语言 - 图像预训练的居中掩蔽

TL;DR我们介绍了用于语言 - 图像预训练的高斯掩模化 (GLIP) 技术,它是一种新颖、直接且有效的技术,在预训练视觉 - 语言模型期间屏蔽图像补丁。GLIP 基于快速语言 - 图像预训练 (FLIP),在训练 CLIP 模型时随机屏蔽图像补丁。GLIP 用高斯分布替换了随机屏蔽,并受到图像中心补丁的重要性启发。GLIP 与 FLIP 具有相同的计算节约效果,并通过我们的实验结果在一系列下游数据集和任务中改善了性能。我们展示了获得 GLIP 的好处容易,不需要对高斯进行精细调整,并适用于包含没有明显中心焦点的图像数据集。