CVPRDec, 2021

MViTv2: 改进的多尺度视觉 Transformer 用于分类和检测

TL;DR本文探究了多尺度视觉变换器 (MViTv2) 作为统一的图像和视频分类以及物体检测的架构,提出了一种改进版本的架构,将分解相对位置嵌入和残差池连接融入 MViTv2,并应用在 ImageNet 分类、COCO 检测和 Kinetics 视频识别中,取得了优异的性能,在三个领域的实验表明,相比于传统的拼合注意力机制,MViTv2 的池化类型的注意力机制可以更好地进行特征提取和信息编码。