SpectFormer:视觉 Transformer 中所需的频率和注意力
本研究提出了一种名为 SpectralFormer 的新型网络,它采用了变形金刚模型,从时序的角度重新构思了超光谱图像分类问题,并在三个数据集上证明了其优越性。
Jul, 2021
在语音增强领域,我们提出了一种称为频谱注意力融合的方法,通过使用卷积模块替换自注意力层,提高了模型的计算效率,从而实现了与先进模型相媲美的结果,但参数规模更小(0.58M)的目标。
Aug, 2023
通过在 Vision Transformer 中替换 Attention 层为基于 Patch 维度的前馈网络,本文发现除 Attention 层外,Transformer 中的其他方面,例如 patch embedding,可能更加关键。在 ImageNet 实验中,新架构的表现意外地好,为 74.9% top-1 accuracy。
May, 2021
使用不同的核逼近和核学习技术进行注意力的线性化已显示出潜力,本文引入了 Spectraformer,这是一个用于近似和学习 Transformer 线性化注意力核函数的统一框架,通过对多种组件函数和权重矩阵的组合进行实验证明,我们发现一种新的组合可以使训练时间快 23.4%,内存消耗低 25.2%,并且保持性能与原始 Transformer 相当。
May, 2024
Scattering Vision Transformer (SVT) introduces a novel approach to address attention complexity and capture fine-grained information in computer vision tasks, achieving state-of-the-art performance in tasks such as image classification and outperforming other transformers in transfer learning.
Nov, 2023
提出了一种多尺度光谱空间卷积 Transformer (MultiscaleFormer) 用于高光谱图像分类,通过多尺度空间补丁和光谱表示来捕捉多尺度光谱空间信息,并通过改进的光谱空间 CAF 模块进行信息融合,取得了优于大部分其他架构的分类性能。
Oct, 2023
HPFormer 是一种基于 Transformer 的新方法,利用其强大的表示学习能力来提高视觉跟踪性能,并通过 Hyperspectral Hybrid Attention(HHA)模块实现特征提取和融合,以及通过 Transform Band Module (TBM) 从完整的高光谱输入中选择性地聚合空间细节和光谱特征来注入有信息的目标表示,通过在基准 NIR 和 VIS 跟踪数据集上进行的广泛实验表明,HPFormer 具有最先进的性能,从而提供了利用 Transformer 和高光谱融合来改进鲁棒目标跟踪的新见解。
Aug, 2023
通过取代 Transformers 中的注意力机制,使用空间 MLPs,从而验证了 Transformers 的总体架构(MetaFormer)对模型性能的贡献更为关键。提出了 MetaFormer 的概念,这是一个抽象出 Transformers 中 token mixer 以外的通用架构,并将提出的 PoolFormer 作为未来 MetaFormer 架构设计的起点基线模型。
Nov, 2021
本文提出了名为 Dual Vision Transformer (Dual-ViT) 的新型 Transformer 结构,在保持准确度的前提下,通过综合运用语义路径和像素路径,将全局语义压缩成更高效的先验信息,进而实现了减少计算复杂度的目的,并在实验中表现出比 SOTA Transformer 结构更高的准确度。
Jul, 2022
文章提出了一种名为 iFormer 的基于 Inception 的 Transformer 架构,通过一种名为 Inception mixer 的操作使得网络能够更好地捕捉高频信息和低频信息,加入了渐进降低高频分量和增加低频分量的结构,并在图像分类等任务上取得了非常优秀的表现。
May, 2022