Jul, 2023

MSViT:用于视觉 Transformer 的动态混合尺度分词

TL;DR本文提出了一种动态混合尺度的Vision Transformers模式,通过引入条件门控机制,智能选择每个图像区域的最佳令牌规模进行处理,从而提高图像分类的精度和效率。