Jul, 2022
卷积嵌入使分层视觉Transformer更强大
Convolutional Embedding Makes Hierarchical Vision Transformer Stronger
TL;DR本文研究了如何使用混合CNN / ViTs的宏观架构来增强分层ViTs的性能,特别地,我们研究了令牌嵌入层的作用,引入了卷积嵌入(CE),并系统地揭示了CE如何在ViTs中注入理想的归纳偏差。 我们将最佳CE配置应用于4个最近发布的最先进的ViT中,有效地提高了相应的性能,并释放了一组高效的混合CNN / ViT,名为CETNets,可作为通用视觉骨干。