Jun, 2020

视觉 Transformer:面向计算机视觉的基于令牌的图像表示和处理

TL;DR本文通过使用视觉 Transformer 在语义标记空间中密集地建模标记关系并减少卷积计算量,从而在 ImageNet top-1 和 LIP,COCO-stuff 图像分割测试上表现出了显着的优势。