关键词multiscale vision transformers
搜索结果 - 2
- CVPRMViTv2: 改进的多尺度视觉 Transformer 用于分类和检测
本文探究了多尺度视觉变换器 (MViTv2) 作为统一的图像和视频分类以及物体检测的架构,提出了一种改进版本的架构,将分解相对位置嵌入和残差池连接融入 MViTv2,并应用在 ImageNet 分类、COCO 检测和 Kinetics 视频 - 多尺度视觉变换器
Multiscale Vision Transformers 是一种用于视频和图像识别的多尺度特征层级转换器,它可基于视觉信号的密集性建模逐渐展开通道容量和降低空间分辨率得到的多尺度特征金字塔,它能优于大规模的外部预训练及在计算和参数方面更