ICCVJan, 2021

Tokens-to-Token ViT: 在 ImageNet 上从头开始训练视觉 Transformer 模型

TL;DR本论文提出了一种名为 T2T-ViT 的 Tokens 转到 Tokens 的视觉变压器,用于图像分类,通过对输入图像进行递归聚合邻近的 Tokens,结合本地结构进行建模,从而提高模型训练样本效率,并减少模型参数和计算量,最终在 ImageNet 数据集上取得了优秀的表现。