Jun, 2022

少样本分类中的泛化思考

TL;DR通过将输入样本分割成补丁,并借助 Vision Transformers 对其进行编码,从而在图像的局部区域之间建立语义对应关系,而不受其各自类别的影响。利用掩蔽图像建模等方法进行无监督训练,以克服标签不够精细以及避免负面的图像级注释影响,实现了对数据的更一般的统计结构的学习,并在四个流行的 Few-shot 分类基准测试中,对于 5-shot 和 1-shot 情形均取得了新的最优结果。