MatFormer: 嵌套变压器用于弹性推理

Oct, 2023

MatFormer: 嵌套变压器用于弹性推理

MatFormer: Nested Transformer for Elastic Inference

Devvrit, Sneha Kudugunta, Aditya Kusupati, Tim Dettmers, Kaifeng Chen...

TL;DRMatFormer 介绍了一种嵌套的 Transformer 架构，允许精细控制模型大小和推理延迟，同时能提取准确的子模型以降低推理时间。

Abstract

transformer models are deployed in a wide range of settings, from multi-accelerator clusters to standalone mobile phones. The diverse inference constraints in these scenarios necessitate practitioners to train foundation models such as PaLM 2, Llama, & ViTs as a series of models of var

transformer models matformer model sizes granularity inference latency

发现论文，激发创造

PartialFormer：建模部分而非整体

本论文介绍了 PartialFormer—— 一种参数有效的 Transformer 架构，利用多个较小的前馈神经网络来减少参数和计算量，同时保持重要的隐藏维度，并通过一个多头注意力系统实现有效的协同工作。还介绍了一种定制的头缩放策略和改进 PartialFormer 深度扩展的注意力计算方法，对 9 个翻译任务和 1 个抽象摘要任务的大量实验验证了 PartialFormer 方法的有效性。

Oct, 2023

用于视觉的 MetaFormer 基线

本文基于 MetaFormer 架构探索了不同的 token mixer 的组合方式，取得了较高的图像分类准确率，同时也提出了新的激活函数 StarReLU。

Oct, 2022

MatchFormer: 用于特征匹配的变形金刚中的交错注意力

本文提出了一种新的层次化提取和匹配变形器 MatchFormer 来提高局部特征匹配的效率和鲁棒性，该方法结合自注意力和跨注意力在多尺度特征的层次化架构上提高匹配鲁棒性，并在室内姿势评估、室外姿势评估、单应性评估和图像匹配检测四个基准测试中均取得 state-of-the-art 的结果。

Mar, 2022

MetaFormer 对于计算机视觉是必不可少的

通过取代 Transformers 中的注意力机制，使用空间 MLPs，从而验证了 Transformers 的总体架构（MetaFormer）对模型性能的贡献更为关键。提出了 MetaFormer 的概念，这是一个抽象出 Transformers 中 token mixer 以外的通用架构，并将提出的 PoolFormer 作为未来 MetaFormer 架构设计的起点基线模型。

Nov, 2021

MixFormer：迭代混合注意力实现的端到端跟踪

本文提出了一种基于 transformers 的简单有效的追踪框架 MixFormer，通过 Mixed Attention Module 实现了特征提取和目标信息集成的同步建模，设计了两种类型的 MixFormer 追踪器，使用不同的预训练方法，提出了减少计算成本的不对称注意机制和有效的得分预测模块，并在包括 LaSOT，TrackingNet，VOT2020，GOT-10k，OTB100 和 UAV123 等七个追踪基准中创造了最新的性能标准。

Feb, 2023

MixFormer: 迭代混合注意力的端到端跟踪

使用 transformers 建立了一种稳健的跟踪框架 MixFormer，采用混合注意力模块（MAM）实现了特征提取和目标信息的同步建模，同时在 LaSOT、TrackingNet、VOT2020、GOT-10k 和 UAV123 等五个基准测试数据集上取得了最新的最高成功率和 EAO 评分。

Mar, 2022

AutoFormer: 为视觉识别搜索 Transformer

本文提出了一种名为 AutoFormer 的新一代架构搜索框架，该框架是针对视觉分类和检测任务中 transformer 网络设计的，通过优化 supernet 让数千个子网络获得很好的训练，最终得到的 AutoFormers 模型在 ImageNet 数据集上取得了比 ViT 和 DeiT 更高的性能，且具有良好的迁移性能和蒸馏实验性能。

Jul, 2021

MixFormerV2：高效全 Transformer 跟踪

本文提出了一种基于全 Transformer 结构的跟踪框架 MixFormerV2，通过引入四个特殊的预测 tokens，结合目标模板和搜索区域的 tokens，采用 Transformer 骨干网络进行跟踪预测，进而通过简单的 MLP heads 预测跟踪框和评估置信度得分，并提出了一种新的蒸馏模型的减少算法，包括密集到稀疏和深层到浅层的蒸馏，以进一步提高跟踪器性能。

May, 2023

FastFormers: 高效 Transformer 模型的自然语言理解

本研究提出了 FastFormers 来加快基于 Transformer 模型的 NLU 任务的推理效率，可以通过运用知识蒸馏、结构剪枝和数值优化等方法，将预处理模型在 CPU 和 GPU 上的速度提高至 9.8-233.9 倍，节省成本的同时降低能耗。

Oct, 2020

U-MixFormer：混合注意力的类 UNet Transformer 进行高效语义分割

我们提出了一种新的变换器解码器 U-MixFormer，基于 U-Net 结构设计的，用于高效的语义分割。通过在编码器和解码器阶段之间利用侧连接作为特征查询，我们的方法与以前的变换器方法有所不同。此外，我们创新地混合来自各个编码器和解码器阶段的分层特征图，形成一个统一的键和值表示，从而产生我们独特的混合注意模块。大量实验证明，U-MixFormer 在各种配置上表现出色，并且在 ADE20K 上使用 MSCAN-T 编码器的 mIoU 比 SegFormer 和 FeedFormer 高出 3.3%。

Dec, 2023