ParFormer：使用并行的本地全局令牌混合和卷积注意力补丁嵌入的视觉 Transformer 基线

Mar, 2024

ParFormer：使用并行的本地全局令牌混合和卷积注意力补丁嵌入的视觉 Transformer 基线

ParFormer: Vision Transformer Baseline with Parallel Local Global Token Mixer and Convolution Attention Patch Embedding

Novendra Setyawan, Ghufron Wahyu Kurniawan, Chi-Chia Sun, Jun-Wei Hsieh, Hui-Kai Su...

TL;DR该研究提出了 ParFormer 作为一种改进的 transformer 体系结构，通过将不同的 token mixer 集成到一个阶段中，从而提高特征提取能力。与传统的窗口移动方法不同，结合本地和全局数据可以精确表示短程和长程空间关系。通过并行的 token mixer 编码器以及卷积注意力模块，我们提出了 Enhance Patch Embedding for Token Mixer (CEPTM) 来改善 token mixer 的提取能力。全面的评估结果表明，我们的 ParFormer 在图像分类和目标识别等多个复杂任务中表现优于基于 CNN 和最先进的 transformer 的架构。提出的 CEPTM 在使用 Identity Mapping Token Mixer 时也对整体 MetaFormer 体系结构有所改善，提高了 0.5％的准确性。ParFormer 模型在准确性方面优于纯卷积模型和 transformer 模型的 ConvNeXt 和 Swin Transformer。此外，我们的模型在 ImageNet-1K 分类测试中取得了领先的混合 transformer 模型达到了有竞争力的 Top-1 得分。具体来说，我们的模型变种，参数为 11M，23M 和 34M 时，分别达到了 80.4％，82.1％和 83.1％的得分。

Abstract

This work presents parformer as an enhanced transformer architecture that allows the incorporation of different token mixers into a single stage, hence improving feature extraction capabilities. Integrating both local and global data allows for precise representation of short- and long

parformer token mixer convolutional attention patch embedding (cape)image classification object recognition

发现论文，激发创造

用于视觉的 MetaFormer 基线

本文基于 MetaFormer 架构探索了不同的 token mixer 的组合方式，取得了较高的图像分类准确率，同时也提出了新的激活函数 StarReLU。

Oct, 2022

基于 Transformer 的行人属性识别多任务网络 PARFormer

本研究提出了一种纯 transformer 的多任务行人属性识别网络，名为 PARFormer，其中包含 4 个模块：特征提取模块、特征处理模块、视点感知模块和属性识别模块，实现了竞争性的性能表现，并强调全局视角的重要性。

Apr, 2023

ParaFormer: 并行注意力变换器用于高效特征匹配

本论文提出了基于深度学习和两种新型概念 ——ParaFormer 和基于图形的 U-Net 结构，以实现卓越的性能和高效率，通过在各种应用（包括单应性估计、姿态估计和图像匹配）上进行多项实验证明 ParaFormer-U 变体在保证性能同时，计算量仅为现有基于注意力模型的 50%。

Mar, 2023

MetaFormer 对于计算机视觉是必不可少的

通过取代 Transformers 中的注意力机制，使用空间 MLPs，从而验证了 Transformers 的总体架构（MetaFormer）对模型性能的贡献更为关键。提出了 MetaFormer 的概念，这是一个抽象出 Transformers 中 token mixer 以外的通用架构，并将提出的 PoolFormer 作为未来 MetaFormer 架构设计的起点基线模型。

Nov, 2021

ConvFormer: 提升医学图像分割的即插即用卷积神经网络模型

通过构建 CNN 式 Transformer（ConvFormer）来提升更好的注意力收敛，从而获得更好的分割性能。

Sep, 2023

TopFormer：移动语义分割的 Token 金字塔 Transformer

本研究提出了一种名为 TopFormer 的移动友好的架构，该架构以不同尺度的 Token 作为输入，产生具有尺度感知的语义特征，并将这些特征注入到相应的 Token 中以增强表示能力，该方法在多个语义分割数据集上明显优于 CNN 和 ViT 网络，并在 ARM 移动设备上以较低的延迟实现了比 MobileNetV3 更高的平均交并比精度，同时，TopFormer 的微型版本可以在 ARM 移动设备上实现实时推断。

Apr, 2022

Mobile-Former：连接 MobileNet 和 Transformer

Mobile-Former 是一种结合 MobileNet 和 Transformer 的二元桥设计，其具有较低的计算成本和更强的表示能力，可以用于图像分类和对象检测，并在低 FLOP 区间内胜过 MobileNetV3 以及传统目标检测框架 DETR

Aug, 2021

MatteFormer: 基于先验 Token 的 Transformer 图像抠图

本文提出了一种基于 transformer 的图像抠图模型 MatteFormer，利用 trimap 信息；方法采用优先标记，并在每个块的自注意机制中使用全局先验，评估结果表明其可以在基准数据集上实现最领先的性能表现。

Mar, 2022

MatchFormer: 用于特征匹配的变形金刚中的交错注意力

本文提出了一种新的层次化提取和匹配变形器 MatchFormer 来提高局部特征匹配的效率和鲁棒性，该方法结合自注意力和跨注意力在多尺度特征的层次化架构上提高匹配鲁棒性，并在室内姿势评估、室外姿势评估、单应性评估和图像匹配检测四个基准测试中均取得 state-of-the-art 的结果。

Mar, 2022

DualFormer：面向高效视频识别的分层局部全局 Transformer

本文提出了一种新型的 Transformer 架构 DualFormer 用于视频识别，此架构可以有效地处理空间 - 时间关注，能够捕捉短距离和长距离的时空依赖关系，并通过本地 - 全局层次划分策略显著减少注意力计算中的关键值个数，从而提高效率并在五个视频基准测试上验证了 DualFormer 的优越性能。

Dec, 2021