UniNeXt：探索一种统一的视觉识别架构

Apr, 2023

UniNeXt：探索一种统一的视觉识别架构

UniNeXt: Exploring A Unified Architecture for Vision Recognition

Fangjian Lin, Jianlong Yuan, Sitong Wu, Fan Wang, Zhibin Wang

TL;DR本研究提出了 UniNeXt，对计算机视觉中的通用骨干架构进行了改进，这提高了所有空间令牌混合器的性能，并缩小了它们之间的性能差距，甚至超越了之前的最优解，它还表明了对通用骨干架构的研究的重要性。

Abstract

vision transformers have shown great potential in computer vision tasks. Most recent works have focused on elaborating the spatial token mixer

vision transformers spatial token mixer general architecture uninext computer vision

发现论文，激发创造

TransNeXt：用于视觉 Transformer 的强大视觉感知

通过仿生设计的令牌混合器，模拟生物视觉和持续眼动，提出聚合注意力机制（Aggregated Attention），使特征图上的每个令牌具有全局感知能力。同时，结合学习性令牌、卷积 GLU 机制，构建新的视觉主干网络 TransNeXt，实验结果表明其在多个模型尺寸上实现了最先进的性能。

Nov, 2023

UniFormer：用于高效时空表示学习的统一 Transformer

本研究提出了一种新型的视频分类模型 ——UniFormer，它集成了 3D 卷积和自注意力机制的优点，通过浅层和深层分别学习本地和全局特征，从而在计算量和准确性之间取得了理想的平衡，经实验证明该模型的泛化和针对性能均优于其他方法。

Jan, 2022

UniNet：卷积、Transformer 和 MLP 统一结构搜索

通过引入可学习的卷积、Transformer 和 MLP 操作符的混合结构，并利用上下文感知降采样模块进行特征适应，本文使用强化学习搜索算法在统一搜索空间中进行搜索，达到了在 ImageNet 数据集上取得更高精度和更高效率的目标，相对于 EfficientNet-B7 和 BoTNet-T7 减少了 44％和 55％的 FLOPs，相对于 Swin-L 减少了 51％的 FLOPs 和 41％更少的参数。

Jul, 2022

RIFormer：在不使用 Token Mixer 功能的同时保持视觉骨干网络的有效性

本文研究如何在去除基本构建模块中的令牌混合器的同时保持视觉骨干的有效性，并提出了一个可行的优化策略，使得我们能够构建一种极其简单的视觉骨干，具有鼓舞人心的性能，同时在推理过程中享受高效性。

Apr, 2023

UniFormer：统一卷积和自注意力机制用于视觉识别

提出了一种新方法 UniFormer，能够将 CNN 和 ViT 的优点融合到一个新的强大的支持各种视觉任务，包括图像分类、目标检测、语义分割和姿态估计等的 Transformer 模型中，并在不需要额外训练数据的情况下，达到了 ImageNet-1K 分类的 86.3% 的 top-1 准确率，以及在一系列任务中取得了最先进的性能。

Jan, 2022

U-MixFormer：混合注意力的类 UNet Transformer 进行高效语义分割

我们提出了一种新的变换器解码器 U-MixFormer，基于 U-Net 结构设计的，用于高效的语义分割。通过在编码器和解码器阶段之间利用侧连接作为特征查询，我们的方法与以前的变换器方法有所不同。此外，我们创新地混合来自各个编码器和解码器阶段的分层特征图，形成一个统一的键和值表示，从而产生我们独特的混合注意模块。大量实验证明，U-MixFormer 在各种配置上表现出色，并且在 ADE20K 上使用 MSCAN-T 编码器的 mIoU 比 SegFormer 和 FeedFormer 高出 3.3%。

Dec, 2023

MinkUNeXt：基于稀疏三维卷积的基于点云的大规模地点识别

MinkUNeXt 是一种基于 3D MinkNeXt Block 的高效有效的基于点云的地点识别架构，该架构通过 3D 稀疏卷积实现特征提取和聚合，并在测试中表现出优于其他方法的结果。

Mar, 2024

Twins: 重访视觉 Transformer 中空间注意力设计

本文针对密集预测任务，重新设计了空间注意力机制，提出了 Twins-PCPVT 和 Twins-SVT 两种高效且易于实现的视觉转换器架构，并在图像分类、密集检测及分割等视觉任务上取得了出色的性能表现。

Apr, 2021

EdgeNeXt：面向移动视觉应用的高效融合 CNN-Transformer 结构

本研究提出了一种新型的轻量神经网络 EdgeNeXt，通过引入 STDA 编码器，在不增加计算成本的情况下，将 CNN 和 Transformer 模型的优点结合起来，以实现多尺度特征的编码和有效利用，从而达到资源高效的目的。在分类、检测和分割任务中，较之于其他最先进方法，EdgeNet 在计算要求较低的条件下表现出更佳的性能，表现出其在实践中的潜力。

Jun, 2022

UniFormerV2：将图像 ViTs 赋能视频的时空学习

本文提出了一种用于构建视频网络家族的通用范例，通过将预训练的 Vision Transformers 与高效的 UniFormer 设计相结合，实现了理想的准确性与计算平衡，并在 8 个常见的视频基准测试中取得了最先进的识别性能。

Nov, 2022