TransXNet: 通过双动态令牌混合器学习全局和局部动态以进行视觉识别

Oct, 2023

TransXNet: 通过双动态令牌混合器学习全局和局部动态以进行视觉识别

TransXNet: Learning Both Global and Local Dynamics with a Dual Dynamic Token Mixer for Visual Recognition

Meng Lou, Hong-Yu Zhou, Sibei Yang, Yizhou Yu

TL;DR提出了一种轻量级的 Dual Dynamic Token Mixer (D-Mixer) 来聚合全局信息和局部细节，通过在特征分段上分别应用高效的全局注意力模块和输入相关的深度可分离卷积，为网络赋予了强大的归纳偏差和扩大的有效感受野。使用 D-Mixer 作为基本构建块设计了 TransXNet，这是一个新颖的混合 CNN-Transformer 视觉主干网络，在 ImageNet-1K 图像分类任务中，TransXNet-T 在 top-1 准确率方面超过了 Swin-T 0.3％，同时仅需要不到一半的计算成本，此外，TransXNet-S 和 TransXNet-B 在合理的计算成本下表现出色，分别达到 83.8％和 84.6％的 top-1 准确率。此外，提议的网络架构在各种密集预测任务中表现出强大的泛化能力，优于其他最先进网络，同时计算成本较低。

Abstract

Recent studies have integrated convolution into transformers to introduce inductive bias and improve generalization performance. However, the static nature of conventional →

convolution self-attention inductive bias token mixer transxnet

发现论文，激发创造

TransNeXt：用于视觉 Transformer 的强大视觉感知

通过仿生设计的令牌混合器，模拟生物视觉和持续眼动，提出聚合注意力机制（Aggregated Attention），使特征图上的每个令牌具有全局感知能力。同时，结合学习性令牌、卷积 GLU 机制，构建新的视觉主干网络 TransNeXt，实验结果表明其在多个模型尺寸上实现了最先进的性能。

Nov, 2023

TokenMix: 重塑图像混合在视觉 Transformer 中的数据增强

本文提出了一种名为 TokenMix 的数据增强技术，它在令牌级别上混合两个图像，通过将混合区域分区成多个独立的部分来实现，其适用于更好地训练视觉变换器，同时根据预训练的 teacher 模型的内容基础神经激活映射分配目标分数，增强了其稳健性和性能。

Jul, 2022

DynaMixer：一种具有动态混合的视觉 MLP 架构

本文提出了一个称为 Dyn Mixer 的高效 MLP-like 深度学习网络结构，用于动态信息融合，并且通过一个过程生成融合矩阵，以应对 tokens 的内容，并通过采用降维技术和多段融合机制来减少时间复杂度和提高鲁棒性。Dyn Mixer 模型不需要额外的训练数据，在 ImageNet-1K 数据集上达到了 84.3％的准确率，参数数量减少到 26M 时，仍然获得 82.7％的 top-1 准确率，胜过类似容量的现有 MLP-like 模型。

Jan, 2022

MS-Twins: 多尺度深度自注意力网络用于医学图像分割

提出了 MS-Twins（Multi-Scale Twins）分割模型，通过结合不同尺度和级联特征，能更好地捕捉语义和细粒度信息，解决了在医学图像分割中利用自注意力和卷积的最优化问题。在 Synapse 和 ACDC 两个常用数据集上，MS-Twins 相较于现有的网络结构有了显著的进展，在 Synapse 数据集上的性能比 SwinUNet 高出 8％，即使与最佳的完全卷积医学图像分割网络 nnUNet 相比，在 Synapse 和 ACDC 上 MS-Twins 的性能仍然稍有优势。

Dec, 2023

NiNformer：一种带有令牌混合生成门控函数的网络中网络 Transformer

该论文介绍了一种用于减少计算负担的新的计算模块，通过替换标准的注意力层为具有动态学习元素级门控函数的网络结构，增强了 MLP Mixer 的静态方法，从而在图像分类任务中比基准架构表现更好。

Mar, 2024

MetaMixer 是你所需要的一切

通过将自注意力转换为采用大型卷积和 GELU 激活函数的更类似于 Feed-Forward Network 的有效令牌混合器，作者尝试验证了查询 - 键 - 值框架的重要性，并提出了一种新的混合器体系结构 MetaMixer，在仅使用简单操作（如卷积和 GELU）的情况下取得了卓越的性能改进。

Jun, 2024

FNet: 用 Fourier 变换混合 token

通过使用线性混合器代替自注意层，与标准的非线性前馈层一起能够在几个文本分类任务中模拟语义关系。用标准、非参数特定的傅里叶变化替换 Transformer 编码器中的自注意子层在 GLUE 基准测试上取得了 92-97% 的 BERT 模型的准确性，同时在标准 512 输入长度的 GPU 上训练速度提高了 80%，在 TPU 上提高了 70%。在更长的输入长度上，FNet 模型速度极快，在长序列基准测试中，FNet 模型能够匹配最精确模型的准确性，提供更快的模型训练速度。此外，FNet 的内存占用相对较小，在较小的模型尺寸下运行的性能优于 Transformer 模型。

May, 2021

透过凸优化解释注意力：关于视觉 Transformer 的分析和解读

本文通过凸对偶性的视角分析了自我注意力及其替代方案的基础归纳偏差问题，并为非线性点积自我注意力和替代机制提出了有解释性且可全局最优求解的等效有限维凸问题。通过实验证明，与现有的 MLP 或线性 heuads 相比，自我注意网络的偏差对于 CIFAR-100 分类任务具有吸引力。

May, 2022

ConTNet：为什么不同时使用卷积和 Transformer？

本论文提出基于 Transformer 和 ConvNet 结构的 ConTNet 模型，相较于传统的 ConvNet 模型，可以更好地捕捉全局信息，从而部署在图像分类和物体检测等任务中，具有明显的优异性。

Apr, 2021

DualFormer：面向高效视频识别的分层局部全局 Transformer

本文提出了一种新型的 Transformer 架构 DualFormer 用于视频识别，此架构可以有效地处理空间 - 时间关注，能够捕捉短距离和长距离的时空依赖关系，并通过本地 - 全局层次划分策略显著减少注意力计算中的关键值个数，从而提高效率并在五个视频基准测试上验证了 DualFormer 的优越性能。

Dec, 2021