Apr, 2022

MaxViT:多轴视觉变压器

TL;DR该研究通过引入多轴关注模型和卷积等新元素,提出了一种高效且可扩展的注意力模型,即MaxViT。利用MaxViT作为骨干网络,在图像分类和物体检测等任务上都取得了领先的性能。同时,该模型还证明了其在图像生成方面的潜在优势。