CVPRJul, 2023

自监督 Vision Transformer 的蒸馏用于弱监督少样本分类与分割

TL;DR我们提出了一种利用自监督预训练的视觉 Transformer(ViT)来解决弱监督少样本图像分类和分割的方法,通过自注意力机制,利用自监督 ViT 的标记表示,通过独立的任务头预测分类和分割结果。实验结果表明,我们的模型在不需要像素级标签的情况下能够有效地学习分类和分割,只使用图像级别标签,并且在少量或无像素级标签的情况下表现出显著的性能提升。