Apr, 2022

面具孪生网络用于标签高效学习

TL;DR提出了一种自监督学习框架 ——Masked Siamese Networks (MSN),用于学习图像表示。通过将随机遮罩块的图像视图的表征与原始未遮罩图像的表征进行匹配,可以进行自监督预训练,该策略特别适用于 Vision Transformer 模型,在提高联合嵌入结构的可扩展性的同时,产生高语义级别的表示,并在低样本图像分类方面表现竞争性,对 ImageNet-1K 数据集上,使用基础 MSN 模型以仅有 5000 个带注释的图像,达到了 72.4%的 top-1 准确度,并且只有 1%的 ImageNet-1K 标签,就取得了 75.7%的 top-1 准确度,创立了该基准测试的自监督学习的新的最佳成果。