Jan, 2022

用仅 2040 张图片训练视觉 Transformer

TL;DR本篇研究介绍如何以有限数据训练 Vision Transformers,并探讨使用基于参数实例鉴别方法的理论分析。结果表明,该方法优于其他方法,可捕捉特征对齐和实例相似性,并在多个 ViT 基础下从头开始训练 7 个小数据集,取得了最新的测试结果。此外,该研究还探讨了小型数据集的迁移能力,并发现从小型数据集中学习的表示甚至可以改善大规模 ImageNet 的训练结果。