ICLROct, 2020

一张图像胜过 16*16 个单词:规模下的图像识别变形金刚

TL;DR本文研究使用 Transformer 代替 CNN 进行图像分类,实现在计算资源少的情况下,取得比目前卷积网络更好的识别结果,从而在计算机视觉上取得突破。