Jan, 2021

Tokens-to-Token ViT: 在ImageNet上从头开始训练视觉Transformer模型

TL;DR本论文提出了一种名为T2T-ViT的Tokens转到Tokens的视觉变压器,用于图像分类,通过对输入图像进行递归聚合邻近的Tokens,结合本地结构进行建模,从而提高模型训练样本效率,并减少模型参数和计算量,最终在ImageNet数据集上取得了优秀的表现。