SPFormer：使用超像素表示增强视觉 Transformer

Jan, 2024

SPFormer：使用超像素表示增强视觉 Transformer

SPFormer: Enhancing Vision Transformer with Superpixel Representation

Jieru Mei, Liang-Chieh Chen, Alan Yuille, Cihang Xie

TL;DRSPFormer 是一种新颖的视觉变换器，增强了超像素表示，通过对图像内容进行自适应划分，有效捕捉了复杂的细节，并在各种基准测试中表现出优异性能。其独特的可解释性结构提供了对模型内部过程的洞察，显著提高了 SPFormer 的稳健性。

Abstract

In this work, we introduce spformer, a novel vision transformer enhanced by superpixel representation. Addressing the limitations of tradi

spformer vision transformer superpixel representation adaptability interpretability

发现论文，激发创造

高效语义分割的超像素变换器

通过使用超像素与现代 Transformer 框架相结合，本研究提出一种能在语义分割领域获得最先进性能的方法，通过学习将像素空间分解为低维超像素空间，并运用多头自注意力机制来丰富超像素特征以获得全局上下文信息，最终实现了更高的计算效率和模型性能。

Sep, 2023

自适应 Span Transformer 技术的无检测匹配图像方案 ASpanFormer

提出了一种基于 Transformer 的 ASpanFormer 检测器自由匹配器，采用分层注意力结构，能够在全局和本地粒度上捕捉上下文，并具有自适应调整注意跨度的能力，以此来实现在匹配任务中对高相关性像素的细粒度关注。

Aug, 2022

SparseFormer: 有限潜在令牌的稀疏视觉识别

本文提出了一种命名为 SparseFormer 的新方法，以在端到端的方式中模仿人的稀疏视觉识别，其中 SparseFormer 使用稀疏特征抽样过程，在潜在空间中使用极少量的标记（降至 49），而不是在原始像素空间中处理密集单元，从而具有更低的计算成本。SparseFormer 在 ImageNet 分类基准数据集上的实验表明，它具有与规范或已建立模型相当的性能，同时提供更好的准确度 - 吞吐量权衡，并且设计我们的网络可以以更低的计算成本轻松扩展到视频分类。

Apr, 2023

SegFormer：使用 Transformer 简单高效的语义分割设计

SegFormer 是一种简单、高效而强大的语义分割框架，它将 Transformers 和轻量级的多层感知机解码器统一在一起。我们展示了这种轻量简单设计对提高 Transformers 语义分割效率的关键所在，并为 SegFormer 构建了一系列模型，其中最好的模型 - SegFormer-B5，在 Cityscapes 验证集上达到了 84.0％的 mIoU，显示了出色的零 - shot 鲁棒性。

May, 2021

多尺度光谱 - 空间卷积变换器用于高光谱图像分类

提出了一种多尺度光谱空间卷积 Transformer (MultiscaleFormer) 用于高光谱图像分类，通过多尺度空间补丁和光谱表示来捕捉多尺度光谱空间信息，并通过改进的光谱空间 CAF 模块进行信息融合，取得了优于大部分其他架构的分类性能。

Oct, 2023

FuseFormer: 用于视频修复的 Transformer 融合细粒度信息

FuseFormer 是一种针对视频修复任务的 Transformer 模型，通过使用细粒度特征融合的新型软分割和软组合操作，实现了更加有效的特征传播和内容合成，优于现有技术方法。

Sep, 2021

SVFormer：一种直接训练的脉冲转换器用于高效的视频动作识别

我们研究了利用脉冲神经网络的直接训练的 SVFormer（Spiking Video transFormer）进行视频动作识别，通过整合局部特征提取、全局自注意力和 SNN 的内在动态、稀疏性和脉冲驱动特性，以更高效和有效的方式提取时空特征，并在两个 RGB 数据集（UCF101、NTU-RGBD60）和一个神经形态学数据集（DVS128-Gesture）上进行了评估，表现出与主流模型相媲美的性能同时功耗更低，UCF101 的准确率达到 84.03%，能耗仅为 21 mJ / 视频，这是在直接训练的深度 SNN 中的最新技术水平，显示出相对于以前的模型的显著优势。

Jun, 2024

HiFormer: 使用 Transformer 实现的分层多尺度表示，用于医学图像分割

本文提出了一种新的方法 HiFormer，它通过使用 Swin Transformer 模块和基于 CNN 的编码器设计了两种多尺度特征表示来有效地跨越 CNN 和 Transformer 进行医学图像分割。在编码器解码器结构的跳跃连接中，我们提出了 Double-Level Fusion（DLF）模块，以确保从两个上述表示中获得的全局和局部特征的细粒度融合。在各种医学图像分割数据集上的广泛实验表明，HiFormer 在计算复杂度、定量和定性结果方面优于其他基于 CNN、Transformer 和混合方法。

Jul, 2022

SWFormer：用于点云三维物体检测的稀疏窗口变换器

本文提出了一种针对 3D 目标检测的模型 Sparse Window Transformer（SWFormer），它能够充分利用点云数据的稀疏性，并通过 “桶” 技术对不同长度的稀疏窗口有效地进行处理。在 Multi-scale 特征融合和窗口偏移操作的基础上，作者还引入了新的体素扩散技术。最终，在 Waymo Open Dataset 上的实验结果表明，SWFormer 相比于所有先前的单阶段和两阶段模型，取得了最新的 73.36 L2 mAPH 表现，同时更加高效。

Oct, 2022

SpectralFormer：基于 Transformer 的高光谱图像分类的重新思考

本研究提出了一种名为 SpectralFormer 的新型网络，它采用了变形金刚模型，从时序的角度重新构思了超光谱图像分类问题，并在三个数据集上证明了其优越性。

Jul, 2021