Mar, 2021

多尺度视觉 Longformer: 一种新的高分辨率图像编码 Vision Transformer

TL;DR本文提出了一种新的 Vision Transformer (ViT) 结构 Multi-Scale Vision Longformer,可以提高处理高分辨率图像的能力,主要通过多尺度模型结构和视觉 Longformer 的注意机制来实现,经过全面的实验表明在多项计算机视觉任务中,新的 ViT 模型比现有的 ViT 模型和基于 ResNet 的模型及其他竞争模型的性能都更好。