Inception Transformer

May, 2022

Chenyang Si, Weihao Yu, Pan Zhou, Yichen Zhou, Xinchao Wang...

TL;DR文章提出了一种名为 iFormer 的基于 Inception 的 Transformer 架构，通过一种名为 Inception mixer 的操作使得网络能够更好地捕捉高频信息和低频信息，加入了渐进降低高频分量和增加低频分量的结构，并在图像分类等任务上取得了非常优秀的表现。

Abstract

Recent studies show that transformer has strong capability of building long-range dependencies, yet is incompetent in capturing high frequencies that predominantly convey local information. To tackle this issue, we present a novel and general-purpose →

transformer inception high-frequency low-frequency image classification

发现论文，激发创造

HiFormer: 使用 Transformer 实现的分层多尺度表示，用于医学图像分割

本文提出了一种新的方法 HiFormer，它通过使用 Swin Transformer 模块和基于 CNN 的编码器设计了两种多尺度特征表示来有效地跨越 CNN 和 Transformer 进行医学图像分割。在编码器解码器结构的跳跃连接中，我们提出了 Double-Level Fusion（DLF）模块，以确保从两个上述表示中获得的全局和局部特征的细粒度融合。在各种医学图像分割数据集上的广泛实验表明，HiFormer 在计算复杂度、定量和定性结果方面优于其他基于 CNN、Transformer 和混合方法。

Jul, 2022

HRFormer: 用于密集预测的高分辨率 Transformer

本研究提出了一种名为 High-Resolution Transformer 的方法，用于学习密集预测任务中的高分辨率表示，并取得了在人体姿态估计和语义分割任务中较好的结果。

Oct, 2021

基于线性变换的轻量级无头信息语义分割

本文介绍了一种轻量级的语义分割架构，名为自适应频率变换器。它采用并行架构，使用原型表示作为可学习的局部描述来替代解码器，并在高分辨率特征上保留了丰富的图像语义。我们还使用异构运算符（CNN 和 Vision Transformer）进行像素嵌入和原型表示，以进一步节省计算成本。

Jan, 2023

SpectFormer：视觉 Transformer 中所需的频率和注意力

本研究旨在通过将谱层和多头注意力层结合起来提出 Spectformer 架构，该架构的表现优于其他转换器表示形式，特别是在图像识别任务中。

Apr, 2023

FuseFormer: 用于视频修复的 Transformer 融合细粒度信息

FuseFormer 是一种针对视频修复任务的 Transformer 模型，通过使用细粒度特征融合的新型软分割和软组合操作，实现了更加有效的特征传播和内容合成，优于现有技术方法。

Sep, 2021

MixFormer: 跨窗口与跨维度混合特征

本论文提出了一种名为 MixFormer 的方法，将局部窗口自注意力与深度可分卷积相结合，跨窗口连接建模以扩大感受野，并在通道和空间维度上提供互补线索，从而实现更好的特征混合。在图像分类方面，MixFormer 相比于 RegNet 和 Swin Transformer 表现更好。在 MS COCO，ADE20k 和 LVIS 的 5 项密集预测任务中，其下游任务的性能也明显优于其他替代方案。

Apr, 2022

DualFormer：面向高效视频识别的分层局部全局 Transformer

本文提出了一种新型的 Transformer 架构 DualFormer 用于视频识别，此架构可以有效地处理空间 - 时间关注，能够捕捉短距离和长距离的时空依赖关系，并通过本地 - 全局层次划分策略显著减少注意力计算中的关键值个数，从而提高效率并在五个视频基准测试上验证了 DualFormer 的优越性能。

Dec, 2021

AutoFormer: 为视觉识别搜索 Transformer

本文提出了一种名为 AutoFormer 的新一代架构搜索框架，该框架是针对视觉分类和检测任务中 transformer 网络设计的，通过优化 supernet 让数千个子网络获得很好的训练，最终得到的 AutoFormers 模型在 ImageNet 数据集上取得了比 ViT 和 DeiT 更高的性能，且具有良好的迁移性能和蒸馏实验性能。

Jul, 2021

用于视觉的 MetaFormer 基线

本文基于 MetaFormer 架构探索了不同的 token mixer 的组合方式，取得了较高的图像分类准确率，同时也提出了新的激活函数 StarReLU。

Oct, 2022

MetaFormer 对于计算机视觉是必不可少的

通过取代 Transformers 中的注意力机制，使用空间 MLPs，从而验证了 Transformers 的总体架构（MetaFormer）对模型性能的贡献更为关键。提出了 MetaFormer 的概念，这是一个抽象出 Transformers 中 token mixer 以外的通用架构，并将提出的 PoolFormer 作为未来 MetaFormer 架构设计的起点基线模型。

Nov, 2021