MixFormer: 跨窗口与跨维度混合特征

CVPRApr, 2022

MixFormer: 跨窗口与跨维度混合特征

MixFormer: Mixing Features across Windows and Dimensions

Qiang Chen, Qiman Wu, Jian Wang, Qinghao Hu, Tao Hu...

TL;DR本论文提出了一种名为 MixFormer 的方法，将局部窗口自注意力与深度可分卷积相结合，跨窗口连接建模以扩大感受野，并在通道和空间维度上提供互补线索，从而实现更好的特征混合。在图像分类方面，MixFormer 相比于 RegNet 和 Swin Transformer 表现更好。在 MS COCO，ADE20k 和 LVIS 的 5 项密集预测任务中，其下游任务的性能也明显优于其他替代方案。

Abstract

While local-window self-attention performs notably in vision tasks, it suffers from limited receptive field and weak modeling capability issues. This is mainly because it performs self-attention within non-overla

local-window self-attention mixformer receptive field image classification downstream tasks

发现论文，激发创造

MixFormer: 迭代混合注意力的端到端跟踪

使用 transformers 建立了一种稳健的跟踪框架 MixFormer，采用混合注意力模块（MAM）实现了特征提取和目标信息的同步建模，同时在 LaSOT、TrackingNet、VOT2020、GOT-10k 和 UAV123 等五个基准测试数据集上取得了最新的最高成功率和 EAO 评分。

Mar, 2022

MatchFormer: 用于特征匹配的变形金刚中的交错注意力

本文提出了一种新的层次化提取和匹配变形器 MatchFormer 来提高局部特征匹配的效率和鲁棒性，该方法结合自注意力和跨注意力在多尺度特征的层次化架构上提高匹配鲁棒性，并在室内姿势评估、室外姿势评估、单应性评估和图像匹配检测四个基准测试中均取得 state-of-the-art 的结果。

Mar, 2022

MixFormer：迭代混合注意力实现的端到端跟踪

本文提出了一种基于 transformers 的简单有效的追踪框架 MixFormer，通过 Mixed Attention Module 实现了特征提取和目标信息集成的同步建模，设计了两种类型的 MixFormer 追踪器，使用不同的预训练方法，提出了减少计算成本的不对称注意机制和有效的得分预测模块，并在包括 LaSOT，TrackingNet，VOT2020，GOT-10k，OTB100 和 UAV123 等七个追踪基准中创造了最新的性能标准。

Feb, 2023

基于方向窗口注意力的医学图像分割

DwinFormer 是一个层级编码器解码器架构，具有方向窗口（Dwin）注意力和全局自注意力（GSA）用于特征编码，通过在水平、垂直和深度方向分别执行注意力，在输入特征图的这些方向体积中有效地捕捉局部和全局信息，实验证明它在医学图像分割方面优于当前最先进的方法。

Jun, 2024

U-MixFormer：混合注意力的类 UNet Transformer 进行高效语义分割

我们提出了一种新的变换器解码器 U-MixFormer，基于 U-Net 结构设计的，用于高效的语义分割。通过在编码器和解码器阶段之间利用侧连接作为特征查询，我们的方法与以前的变换器方法有所不同。此外，我们创新地混合来自各个编码器和解码器阶段的分层特征图，形成一个统一的键和值表示，从而产生我们独特的混合注意模块。大量实验证明，U-MixFormer 在各种配置上表现出色，并且在 ADE20K 上使用 MSCAN-T 编码器的 mIoU 比 SegFormer 和 FeedFormer 高出 3.3%。

Dec, 2023

DMFormer：缩小 CNN 和 Vision Transformer 之间的差距

本文提出了一种动态多级注意力机制 (DMA)，它通过多个卷积核大小捕捉输入图像的不同模式，并通过门控机制实现输入自适应权重，然后提出了一种名为 DMFormer 的有效骨干网络，该网络采用了 DMA 替代了视觉变换器中的自我关注机制。在 ImageNet-1K 和 ADE20K 数据集上的广泛实验结果表明，DMFormer 具有先进的性能，优于大小相似的视觉变压器 (ViTs) 和卷积神经网络 (CNNs)。

Sep, 2022

Inception Transformer

文章提出了一种名为 iFormer 的基于 Inception 的 Transformer 架构，通过一种名为 Inception mixer 的操作使得网络能够更好地捕捉高频信息和低频信息，加入了渐进降低高频分量和增加低频分量的结构，并在图像分类等任务上取得了非常优秀的表现。

May, 2022

DualFormer：面向高效视频识别的分层局部全局 Transformer

本文提出了一种新型的 Transformer 架构 DualFormer 用于视频识别，此架构可以有效地处理空间 - 时间关注，能够捕捉短距离和长距离的时空依赖关系，并通过本地 - 全局层次划分策略显著减少注意力计算中的关键值个数，从而提高效率并在五个视频基准测试上验证了 DualFormer 的优越性能。

Dec, 2021

PartialFormer：建模部分而非整体

本论文介绍了 PartialFormer—— 一种参数有效的 Transformer 架构，利用多个较小的前馈神经网络来减少参数和计算量，同时保持重要的隐藏维度，并通过一个多头注意力系统实现有效的协同工作。还介绍了一种定制的头缩放策略和改进 PartialFormer 深度扩展的注意力计算方法，对 9 个翻译任务和 1 个抽象摘要任务的大量实验验证了 PartialFormer 方法的有效性。

Oct, 2023

ParaFormer: 并行注意力变换器用于高效特征匹配

本论文提出了基于深度学习和两种新型概念 ——ParaFormer 和基于图形的 U-Net 结构，以实现卓越的性能和高效率，通过在各种应用（包括单应性估计、姿态估计和图像匹配）上进行多项实验证明 ParaFormer-U 变体在保证性能同时，计算量仅为现有基于注意力模型的 50%。

Mar, 2023