Mobile-Former：连接 MobileNet 和 Transformer

CVPRAug, 2021

Mobile-Former：连接 MobileNet 和 Transformer

Mobile-Former: Bridging MobileNet and Transformer

Yinpeng Chen, Xiyang Dai, Dongdong Chen, Mengchen Liu, Xiaoyi Dong...

TL;DRMobile-Former 是一种结合 MobileNet 和 Transformer 的二元桥设计，其具有较低的计算成本和更强的表示能力，可以用于图像分类和对象检测，并在低 FLOP 区间内胜过 MobileNetV3 以及传统目标检测框架 DETR

Abstract

We present mobile-former, a parallel design of mobilenet and transformer with a two-way bridge in between. This structure leverages the ad

mobile-former mobilenet transformer local processing global interaction

发现论文，激发创造

EfficientFormer：在 MobileNet 速度下的视觉 Transformer

本文介绍了一种高效的纯 Transformer 设计方法 EfficientFormer，用于实现与 MobileNet 相当的性能且具有极低的推理延迟，它通过解决 ViT 中的存储器冗余问题来达到这一目的。

Jun, 2022

动态 Mobile-Former：在核空间中利用注意力和残差连接加强动态卷积

Dynamic Mobile-Former 是一种集成了轻量级注意力机制和增强动态卷积优势的网络模型，通过 Transformer 和 MobileNet 的双向集成实现对全局和局部特征的处理，在图像分类、目标检测和实例分割等各个视觉任务上取得了高效且卓越的性能。

Apr, 2023

TopFormer：移动语义分割的 Token 金字塔 Transformer

本研究提出了一种名为 TopFormer 的移动友好的架构，该架构以不同尺度的 Token 作为输入，产生具有尺度感知的语义特征，并将这些特征注入到相应的 Token 中以增强表示能力，该方法在多个语义分割数据集上明显优于 CNN 和 ViT 网络，并在 ARM 移动设备上以较低的延迟实现了比 MobileNetV3 更高的平均交并比精度，同时，TopFormer 的微型版本可以在 ARM 移动设备上实现实时推断。

Apr, 2022

MobileViTv3：具备本地、全局和输入特征的简单有效融合的移动友好视觉变换器

MobileViT 使用卷积神经网络和视觉 transformer 结合，提出了 MobileViTv3-block 来处理模型缩放以及简化学习任务问题，其在 ImageNet-1k、ADE20K、COCO 和 PascalVOC2012 数据集上表现更优。

Sep, 2022

MetaFormer 对于计算机视觉是必不可少的

通过取代 Transformers 中的注意力机制，使用空间 MLPs，从而验证了 Transformers 的总体架构（MetaFormer）对模型性能的贡献更为关键。提出了 MetaFormer 的概念，这是一个抽象出 Transformers 中 token mixer 以外的通用架构，并将提出的 PoolFormer 作为未来 MetaFormer 架构设计的起点基线模型。

Nov, 2021

AutoFormer: 为视觉识别搜索 Transformer

本文提出了一种名为 AutoFormer 的新一代架构搜索框架，该框架是针对视觉分类和检测任务中 transformer 网络设计的，通过优化 supernet 让数千个子网络获得很好的训练，最终得到的 AutoFormers 模型在 ImageNet 数据集上取得了比 ViT 和 DeiT 更高的性能，且具有良好的迁移性能和蒸馏实验性能。

Jul, 2021

U-MixFormer：混合注意力的类 UNet Transformer 进行高效语义分割

我们提出了一种新的变换器解码器 U-MixFormer，基于 U-Net 结构设计的，用于高效的语义分割。通过在编码器和解码器阶段之间利用侧连接作为特征查询，我们的方法与以前的变换器方法有所不同。此外，我们创新地混合来自各个编码器和解码器阶段的分层特征图，形成一个统一的键和值表示，从而产生我们独特的混合注意模块。大量实验证明，U-MixFormer 在各种配置上表现出色，并且在 ADE20K 上使用 MSCAN-T 编码器的 mIoU 比 SegFormer 和 FeedFormer 高出 3.3%。

Dec, 2023

用于视觉的 MetaFormer 基线

本文基于 MetaFormer 架构探索了不同的 token mixer 的组合方式，取得了较高的图像分类准确率，同时也提出了新的激活函数 StarReLU。

Oct, 2022

HiFormer: 使用 Transformer 实现的分层多尺度表示，用于医学图像分割

本文提出了一种新的方法 HiFormer，它通过使用 Swin Transformer 模块和基于 CNN 的编码器设计了两种多尺度特征表示来有效地跨越 CNN 和 Transformer 进行医学图像分割。在编码器解码器结构的跳跃连接中，我们提出了 Double-Level Fusion（DLF）模块，以确保从两个上述表示中获得的全局和局部特征的细粒度融合。在各种医学图像分割数据集上的广泛实验表明，HiFormer 在计算复杂度、定量和定性结果方面优于其他基于 CNN、Transformer 和混合方法。

Jul, 2022

MatchFormer: 用于特征匹配的变形金刚中的交错注意力

本文提出了一种新的层次化提取和匹配变形器 MatchFormer 来提高局部特征匹配的效率和鲁棒性，该方法结合自注意力和跨注意力在多尺度特征的层次化架构上提高匹配鲁棒性，并在室内姿势评估、室外姿势评估、单应性评估和图像匹配检测四个基准测试中均取得 state-of-the-art 的结果。

Mar, 2022