Oct, 2023

TransXNet: 通过双动态令牌混合器学习全局和局部动态以进行视觉识别

TL;DR提出了一种轻量级的 Dual Dynamic Token Mixer (D-Mixer) 来聚合全局信息和局部细节,通过在特征分段上分别应用高效的全局注意力模块和输入相关的深度可分离卷积,为网络赋予了强大的归纳偏差和扩大的有效感受野。使用 D-Mixer 作为基本构建块设计了 TransXNet,这是一个新颖的混合 CNN-Transformer 视觉主干网络,在 ImageNet-1K 图像分类任务中,TransXNet-T 在 top-1 准确率方面超过了 Swin-T 0.3%,同时仅需要不到一半的计算成本,此外,TransXNet-S 和 TransXNet-B 在合理的计算成本下表现出色,分别达到 83.8%和 84.6%的 top-1 准确率。此外,提议的网络架构在各种密集预测任务中表现出强大的泛化能力,优于其他最先进网络,同时计算成本较低。