Mar, 2021

多尺度视觉 Longformer: 一种新的高分辨率图像编码 Vision Transformer

TL;DR本文提出了一种新的Vision Transformer (ViT)结构Multi-Scale Vision Longformer,可以提高处理高分辨率图像的能力,主要通过多尺度模型结构和视觉Longformer的注意机制来实现,经过全面的实验表明在多项计算机视觉任务中,新的ViT模型比现有的ViT模型和基于ResNet的模型及其他竞争模型的性能都更好。