MetaFormer 对于计算机视觉是必不可少的

CVPRNov, 2021

MetaFormer 对于计算机视觉是必不可少的

MetaFormer Is Actually What You Need for Vision

Weihao Yu, Mi Luo, Pan Zhou, Chenyang Si, Yichen Zhou...

TL;DR通过取代 Transformers 中的注意力机制，使用空间 MLPs，从而验证了 Transformers 的总体架构（MetaFormer）对模型性能的贡献更为关键。提出了 MetaFormer 的概念，这是一个抽象出 Transformers 中 token mixer 以外的通用架构，并将提出的 PoolFormer 作为未来 MetaFormer 架构设计的起点基线模型。

Abstract

transformers have shown great potential in computer vision tasks. A common belief is their attention-based token mixer module contributes most to their competence. However, recent works show the →

transformers token mixer attention-based module spatial mlps metaformer

发现论文，激发创造

用于视觉的 MetaFormer 基线

本文基于 MetaFormer 架构探索了不同的 token mixer 的组合方式，取得了较高的图像分类准确率，同时也提出了新的激活函数 StarReLU。

Oct, 2022

元 - 息肉：高效息肉分割的基线模型

本研究提出了使用 Meta-Former 与 UNet 的融合模型，并引入多尺度上采样块与级联组合以提高纹理，并提出 Convformer 块增强局部特征，以实现医学分割的全局信息、局部信息和边界信息等敏感点的更好决策。该模型在 CVC-300 数据集、Kvasir、CVC-ColonDB 数据集上取得了领先水平的表现。

May, 2023

AutoFormer: 为视觉识别搜索 Transformer

本文提出了一种名为 AutoFormer 的新一代架构搜索框架，该框架是针对视觉分类和检测任务中 transformer 网络设计的，通过优化 supernet 让数千个子网络获得很好的训练，最终得到的 AutoFormers 模型在 ImageNet 数据集上取得了比 ViT 和 DeiT 更高的性能，且具有良好的迁移性能和蒸馏实验性能。

Jul, 2021

MixFormer: 迭代混合注意力的端到端跟踪

使用 transformers 建立了一种稳健的跟踪框架 MixFormer，采用混合注意力模块（MAM）实现了特征提取和目标信息的同步建模，同时在 LaSOT、TrackingNet、VOT2020、GOT-10k 和 UAV123 等五个基准测试数据集上取得了最新的最高成功率和 EAO 评分。

Mar, 2022

ParFormer：使用并行的本地全局令牌混合和卷积注意力补丁嵌入的视觉 Transformer 基线

该研究提出了 ParFormer 作为一种改进的 transformer 体系结构，通过将不同的 token mixer 集成到一个阶段中，从而提高特征提取能力。与传统的窗口移动方法不同，结合本地和全局数据可以精确表示短程和长程空间关系。通过并行的 token mixer 编码器以及卷积注意力模块，我们提出了 Enhance Patch Embedding for Token Mixer (CEPTM) 来改善 token mixer 的提取能力。全面的评估结果表明，我们的 ParFormer 在图像分类和目标识别等多个复杂任务中表现优于基于 CNN 和最先进的 transformer 的架构。提出的 CEPTM 在使用 Identity Mapping Token Mixer 时也对整体 MetaFormer 体系结构有所改善，提高了 0.5％的准确性。ParFormer 模型在准确性方面优于纯卷积模型和 transformer 模型的 ConvNeXt 和 Swin Transformer。此外，我们的模型在 ImageNet-1K 分类测试中取得了领先的混合 transformer 模型达到了有竞争力的 Top-1 得分。具体来说，我们的模型变种，参数为 11M，23M 和 34M 时，分别达到了 80.4％，82.1％和 83.1％的得分。

Mar, 2024

RIFormer：在不使用 Token Mixer 功能的同时保持视觉骨干网络的有效性

本文研究如何在去除基本构建模块中的令牌混合器的同时保持视觉骨干的有效性，并提出了一个可行的优化策略，使得我们能够构建一种极其简单的视觉骨干，具有鼓舞人心的性能，同时在推理过程中享受高效性。

Apr, 2023

TopFormer：移动语义分割的 Token 金字塔 Transformer

本研究提出了一种名为 TopFormer 的移动友好的架构，该架构以不同尺度的 Token 作为输入，产生具有尺度感知的语义特征，并将这些特征注入到相应的 Token 中以增强表示能力，该方法在多个语义分割数据集上明显优于 CNN 和 ViT 网络，并在 ARM 移动设备上以较低的延迟实现了比 MobileNetV3 更高的平均交并比精度，同时，TopFormer 的微型版本可以在 ARM 移动设备上实现实时推断。

Apr, 2022

MixFormerV2：高效全 Transformer 跟踪

本文提出了一种基于全 Transformer 结构的跟踪框架 MixFormerV2，通过引入四个特殊的预测 tokens，结合目标模板和搜索区域的 tokens，采用 Transformer 骨干网络进行跟踪预测，进而通过简单的 MLP heads 预测跟踪框和评估置信度得分，并提出了一种新的蒸馏模型的减少算法，包括密集到稀疏和深层到浅层的蒸馏，以进一步提高跟踪器性能。

May, 2023

Mobile-Former：连接 MobileNet 和 Transformer

Mobile-Former 是一种结合 MobileNet 和 Transformer 的二元桥设计，其具有较低的计算成本和更强的表示能力，可以用于图像分类和对象检测，并在低 FLOP 区间内胜过 MobileNetV3 以及传统目标检测框架 DETR

Aug, 2021

分层联想记忆、并行化 MLP-Mixer 和对称性破坏

通过将 Krotov 的分层关联记忆与 MetaFormers 相结合，该论文提出了一种新的视角，将整个 Transformer 块的完整表示，包括标记 -/ 通道混合模块、层归一化和跳跃连接，作为一个单一的 Hopfield 网络。该方法产生了一个并行化的从三层 Hopfield 网络推导出的 MLP-Mixer，自然地融合了对称的标记 -/ 通道混合模块和层归一化。实证研究揭示了模型中的对称交互矩阵阻碍了图像识别任务的性能。引入破坏对称效果将对称并行化的 MLP-Mixer 的性能过渡到普通 MLP-Mixer 的性能。这表明在标准训练过程中，普通 MLP-Mixer 的权重矩阵自发地获得对称破缺配置，增强了其有效性。这些发现为 Transformer 和 MLP-Mixer 的内在特性及其理论基础提供了见解，为未来模型设计和优化提供了一个稳健的框架。

Jun, 2024