SPFormer:使用超像素表示增强视觉 Transformer
通过使用超像素与现代 Transformer 框架相结合,本研究提出一种能在语义分割领域获得最先进性能的方法,通过学习将像素空间分解为低维超像素空间,并运用多头自注意力机制来丰富超像素特征以获得全局上下文信息,最终实现了更高的计算效率和模型性能。
Sep, 2023
提出了一种基于 Transformer 的 ASpanFormer 检测器自由匹配器,采用分层注意力结构,能够在全局和本地粒度上捕捉上下文,并具有自适应调整注意跨度的能力,以此来实现在匹配任务中对高相关性像素的细粒度关注。
Aug, 2022
本文提出了一种命名为 SparseFormer 的新方法,以在端到端的方式中模仿人的稀疏视觉识别,其中 SparseFormer 使用稀疏特征抽样过程,在潜在空间中使用极少量的标记(降至 49),而不是在原始像素空间中处理密集单元,从而具有更低的计算成本。SparseFormer 在 ImageNet 分类基准数据集上的实验表明,它具有与规范或已建立模型相当的性能,同时提供更好的准确度 - 吞吐量权衡,并且设计我们的网络可以以更低的计算成本轻松扩展到视频分类。
Apr, 2023
SegFormer 是一种简单、高效而强大的语义分割框架,它将 Transformers 和轻量级的多层感知机解码器统一在一起。我们展示了这种轻量简单设计对提高 Transformers 语义分割效率的关键所在,并为 SegFormer 构建了一系列模型,其中最好的模型 - SegFormer-B5,在 Cityscapes 验证集上达到了 84.0%的 mIoU,显示了出色的零 - shot 鲁棒性。
May, 2021
提出了一种多尺度光谱空间卷积 Transformer (MultiscaleFormer) 用于高光谱图像分类,通过多尺度空间补丁和光谱表示来捕捉多尺度光谱空间信息,并通过改进的光谱空间 CAF 模块进行信息融合,取得了优于大部分其他架构的分类性能。
Oct, 2023
FuseFormer 是一种针对视频修复任务的 Transformer 模型,通过使用细粒度特征融合的新型软分割和软组合操作,实现了更加有效的特征传播和内容合成,优于现有技术方法。
Sep, 2021
我们研究了利用脉冲神经网络的直接训练的 SVFormer(Spiking Video transFormer)进行视频动作识别,通过整合局部特征提取、全局自注意力和 SNN 的内在动态、稀疏性和脉冲驱动特性,以更高效和有效的方式提取时空特征,并在两个 RGB 数据集(UCF101、NTU-RGBD60)和一个神经形态学数据集(DVS128-Gesture)上进行了评估,表现出与主流模型相媲美的性能同时功耗更低,UCF101 的准确率达到 84.03%,能耗仅为 21 mJ / 视频,这是在直接训练的深度 SNN 中的最新技术水平,显示出相对于以前的模型的显著优势。
Jun, 2024
本文提出了一种新的方法 HiFormer,它通过使用 Swin Transformer 模块和基于 CNN 的编码器设计了两种多尺度特征表示来有效地跨越 CNN 和 Transformer 进行医学图像分割。在编码器解码器结构的跳跃连接中,我们提出了 Double-Level Fusion(DLF)模块,以确保从两个上述表示中获得的全局和局部特征的细粒度融合。在各种医学图像分割数据集上的广泛实验表明,HiFormer 在计算复杂度、定量和定性结果方面优于其他基于 CNN、Transformer 和混合方法。
Jul, 2022
本文提出了一种针对 3D 目标检测的模型 Sparse Window Transformer(SWFormer),它能够充分利用点云数据的稀疏性,并通过 “桶” 技术对不同长度的稀疏窗口有效地进行处理。在 Multi-scale 特征融合和窗口偏移操作的基础上,作者还引入了新的体素扩散技术。最终,在 Waymo Open Dataset 上的实验结果表明,SWFormer 相比于所有先前的单阶段和两阶段模型,取得了最新的 73.36 L2 mAPH 表现,同时更加高效。
Oct, 2022
本研究提出了一种名为 SpectralFormer 的新型网络,它采用了变形金刚模型,从时序的角度重新构思了超光谱图像分类问题,并在三个数据集上证明了其优越性。
Jul, 2021