Apr, 2021

多尺度视觉变换器

TL;DRMultiscale Vision Transformers 是一种用于视频和图像识别的多尺度特征层级转换器,它可基于视觉信号的密集性建模逐渐展开通道容量和降低空间分辨率得到的多尺度特征金字塔,它能优于大规模的外部预训练及在计算和参数方面更为昂贵的传统视觉转换器。