ECCVJul, 2022

卷积嵌入使分层视觉 Transformer 更强大

TL;DR本文研究了如何使用混合 CNN / ViTs 的宏观架构来增强分层 ViTs 的性能,特别地,我们研究了令牌嵌入层的作用,引入了卷积嵌入(CE),并系统地揭示了 CE 如何在 ViTs 中注入理想的归纳偏差。 我们将最佳 CE 配置应用于 4 个最近发布的最先进的 ViT 中,有效地提高了相应的性能,并释放了一组高效的混合 CNN / ViT,名为 CETNets,可作为通用视觉骨干。