Jun, 2022

少样本分类中的泛化思考

TL;DR通过将输入样本分割成补丁,并借助Vision Transformers对其进行编码,从而在图像的局部区域之间建立语义对应关系,而不受其各自类别的影响。利用掩蔽图像建模等方法进行无监督训练,以克服标签不够精细以及避免负面的图像级注释影响,实现了对数据的更一般的统计结构的学习,并在四个流行的Few-shot分类基准测试中,对于5-shot和1-shot情形均取得了新的最优结果。