Jun, 2024

研究自监督方法以实现标签高效学习

TL;DR视觉变换器结合自监督学习,在分类、分割和检测等多个下游任务上能够扩展到大规模数据集。我们通过比较预训练模型,在不同自监督预训练任务(对比学习、聚类和掩模图片建模)的低样本学习能力以及应对崩溃的方法(居中、ME-MAX 和 Sinkhorn)对这些下游任务的影响进行系统级研究。基于我们的详细分析,我们提出了一个框架,将掩模图片建模和聚类作为预训练任务,这个框架在包括多类分类、多标签分类和语义分割在内的所有低样本下游任务中表现更好。此外,当在完整规模的数据集上测试模型时,我们在多类分类、多标签分类和语义分割中展示了性能提升。