Jan, 2022

用仅2040张图片训练视觉Transformer

TL;DR本篇研究介绍如何以有限数据训练Vision Transformers,并探讨使用基于参数实例鉴别方法的理论分析。结果表明,该方法优于其他方法,可捕捉特征对齐和实例相似性,并在多个ViT基础下从头开始训练7个小数据集,取得了最新的测试结果。此外,该研究还探讨了小型数据集的迁移能力,并发现从小型数据集中学习的表示甚至可以改善大规模ImageNet的训练结果。