TransNeXt：用于视觉 Transformer 的强大视觉感知

Nov, 2023

TransNeXt：用于视觉 Transformer 的强大视觉感知

TransNeXt: Robust Foveal Visual Perception for Vision Transformers

Dai Shi

TL;DR通过仿生设计的令牌混合器，模拟生物视觉和持续眼动，提出聚合注意力机制（Aggregated Attention），使特征图上的每个令牌具有全局感知能力。同时，结合学习性令牌、卷积 GLU 机制，构建新的视觉主干网络 TransNeXt，实验结果表明其在多个模型尺寸上实现了最先进的性能。

Abstract

Due to the depth degradation effect in residual connections, many efficient vision transformers models that rely on stacking layers for information exchange often fail to form sufficient information mixing, leading to unnatural visual perception. To address this issue, in this paper, w

vision transformers aggregated attention biomimetic design convolutional glu transnext

发现论文，激发创造

TransXNet: 通过双动态令牌混合器学习全局和局部动态以进行视觉识别

提出了一种轻量级的 Dual Dynamic Token Mixer (D-Mixer) 来聚合全局信息和局部细节，通过在特征分段上分别应用高效的全局注意力模块和输入相关的深度可分离卷积，为网络赋予了强大的归纳偏差和扩大的有效感受野。使用 D-Mixer 作为基本构建块设计了 TransXNet，这是一个新颖的混合 CNN-Transformer 视觉主干网络，在 ImageNet-1K 图像分类任务中，TransXNet-T 在 top-1 准确率方面超过了 Swin-T 0.3％，同时仅需要不到一半的计算成本，此外，TransXNet-S 和 TransXNet-B 在合理的计算成本下表现出色，分别达到 83.8％和 84.6％的 top-1 准确率。此外，提议的网络架构在各种密集预测任务中表现出强大的泛化能力，优于其他最先进网络，同时计算成本较低。

Oct, 2023

TransMix：面向 Transformer 视觉任务的混合注意力机制

本文提出了一种名为 TransMix 的混合标签方法，基于 ViT 的注意力图混合标签，这种方法不需要引入额外的参数和 FLOP，并且在不同的基于 ImageNet 数据集的分类任务中都能够显著提高 ViT 的性能以及在语义分割，目标检测和实例分割上的迁移能力，同时在 4 种不同数据集的评估中也表现得更加稳健。

Nov, 2021

EdgeNeXt：面向移动视觉应用的高效融合 CNN-Transformer 结构

本研究提出了一种新型的轻量神经网络 EdgeNeXt，通过引入 STDA 编码器，在不增加计算成本的情况下，将 CNN 和 Transformer 模型的优点结合起来，以实现多尺度特征的编码和有效利用，从而达到资源高效的目的。在分类、检测和分割任务中，较之于其他最先进方法，EdgeNet 在计算要求较低的条件下表现出更佳的性能，表现出其在实践中的潜力。

Jun, 2022

基于 Transformer 的注意力网络用于连续像素智能预测

本文提出的 TransDepth 是一种结合了卷积神经网络和 Transformers 的像素预测模型，使用基于门的注意力机制避免了网络对局部细节的损失，并在三个具有挑战性的数据集上取得了最先进的性能。

Mar, 2021

速览注视视觉变换器

提出一种效率更高的视觉 Transformer 模型，命名为 Glance-and-Gaze Transformer (GG-Transformer)，其通过两个并行的分支 ——Glance 和 Gaze，分别实现自适应扩张分区的自注意力机制与简单深度卷积层的局部图像上下文补偿，从而实现长距离依赖性和局部区域信息的高效建模，在多个视觉任务和基准测试中都表现出了优秀的性能。

Jun, 2021

UniNeXt：探索一种统一的视觉识别架构

本研究提出了 UniNeXt，对计算机视觉中的通用骨干架构进行了改进，这提高了所有空间令牌混合器的性能，并缩小了它们之间的性能差距，甚至超越了之前的最优解，它还表明了对通用骨干架构的研究的重要性。

Apr, 2023

卷积变形器用于视觉

提出了一种基于线性注意力机制的混合体系结构 ——Convolutional X-formers for Vision（CXV）。通过将 Quintic Transformer，Nyströmformer 和 Linear Transformer 等线性注意力机制代替二次注意力机制，来减少 GPU 使用。CXV 在有限的数据和 GPU 资源（核心，内存，功率）场景下，比其他的架构如 Token mixers（例如 ConvMixer，Fnet 和 MLP Mixer），变换模型（如 ViT，CCT，CvT 和混合 Xformers）以及 ResNets 等，更适用于图像分类任务。

Jan, 2022

稠密预测的视觉 Transformer

本文提出了稠密视觉 Transformer（dense vision transformers）作为密集预测任务的主干网络，相对于全卷积网络，该结构以恒定和较高的分辨率处理表示，并在每个阶段具有全局感受野。在单眼深度估计和语义分割任务上，我们的实验表明，该结构在有大量训练数据的情况下能够显着提高性能，是一种大有前途的新型神经网络结构。

Mar, 2021

SegNeXt: 语义分割中重思卷积特征设计

SegNeXt 是一种简单的卷积神经网络架构，通过重新审视先前成功的分割模型所拥有的特性，设计了一种基于卷积注意力机制的网络模型，该模型使用了廉价的卷积操作，有效提高了语义分割模型的性能，超越了现有技术最佳方法。

Sep, 2022

2020 年代用于 ConvNet（卷积神经网络）的神经网络

本研究重新审视设计空间，逐步将标准 ResNet 现代化为 Vision Transformer 的设计，发现了几个关键组件，并发现纯 ConvetNets 模型家族 ConvNeXt 可以在精度和可伸缩性方面与 Transformer 竞争，在 ImageNet 的 top-1 准确率方面达到了 87.8％，并在 COCO 检测和 ADE20K 分割上优于 Swin Transformer 。

Jan, 2022