基于 FFT 的视觉动态令牌混合器

Mar, 2023

FFT-based Dynamic Token Mixer for Vision

Yuki Tatsunami, Masato Taki

TL;DR提出了一种新的动态滤波器 Token-mixer，与 MHSA 类似，但计算复杂度较低，并在图像识别中达到了与卷积和 MHSA 混合架构相近的精度水平，对于处理高分辨率图像的吞吐量和内存效率优于 CAFormer。

Abstract

multi-head-self-attention (MHSA)-equipped models have achieved notable performance in computer vision. Their computational complexity is proportional to quadratic numbers of pixels in input feature maps, resulting in slow processing, especially when dealing with high-resolution images.

multi-head-self-attention fft-based token-mixer dynamic filter image recognition metaformer architecture

发现论文，激发创造

自适应频率滤波器作为高效的全局令牌混合器

通过将传统的卷积定理应用于深度学习，本研究揭示了自适应频率滤波器可作为高效的全局令牌混合器，进而提出了适应性频率滤波（AFF）令牌混合器。实验证明，AFFNet 在广泛的视觉任务中实现了卓越的准确性和效率平衡。

Jul, 2023

DMFormer：缩小 CNN 和 Vision Transformer 之间的差距

本文提出了一种动态多级注意力机制 (DMA)，它通过多个卷积核大小捕捉输入图像的不同模式，并通过门控机制实现输入自适应权重，然后提出了一种名为 DMFormer 的有效骨干网络，该网络采用了 DMA 替代了视觉变换器中的自我关注机制。在 ImageNet-1K 和 ADE20K 数据集上的广泛实验结果表明，DMFormer 具有先进的性能，优于大小相似的视觉变压器 (ViTs) 和卷积神经网络 (CNNs)。

Sep, 2022

动态 Mobile-Former：在核空间中利用注意力和残差连接加强动态卷积

Dynamic Mobile-Former 是一种集成了轻量级注意力机制和增强动态卷积优势的网络模型，通过 Transformer 和 MobileNet 的双向集成实现对全局和局部特征的处理，在图像分类、目标检测和实例分割等各个视觉任务上取得了高效且卓越的性能。

Apr, 2023

动态频谱混合器用于视觉识别

提出了一种自适应结构，名为动态谱混合器（DSM），该结构通过使用离散余弦变换在频域表示标记间的相互作用，能够以对数线性复杂度学习长期空间依赖性，并通过动态频谱权重生成层实现信息频段的突出，从而高效地学习包含高低频信息的视觉输入的详细特征。全面的实验证明，DSM 是一种功能强大且适应性强的骨干网络，适用于各种视觉识别任务。

Sep, 2023

MetaMixer 是你所需要的一切

通过将自注意力转换为采用大型卷积和 GELU 激活函数的更类似于 Feed-Forward Network 的有效令牌混合器，作者尝试验证了查询 - 键 - 值框架的重要性，并提出了一种新的混合器体系结构 MetaMixer，在仅使用简单操作（如卷积和 GELU）的情况下取得了卓越的性能改进。

Jun, 2024

WaveMix: 图像资源高效的 Token 混合

WaveMix 是一种采用多尺度 2D 离散小波变换 (DWT) 进行空间令牌混合的替代神经架构，与卷积神经网络 (CNNs) 和 ViTs 相比，在多个数据集上表现出了与它们相当甚至更好的泛化性同时需要更少的计算和存储

Mar, 2022

使用注意力映射和前馈神经网络压缩的视觉 Transformer

本文提出了一种名为 attention map hallucination 和 FFN compaction 的技术，可以帮助减少 Vision Transformer 里的重叠和获得更好的性能。

Jun, 2023

Mixer 不仅仅是一个模型

这篇研究论文介绍了一种名为 ASM-RH 的新型模型，它结合了时间和频率域的特点，特别适用于音频数据，并在多个分类任务中取得了有希望的成果。

Feb, 2024

DynaMixer：一种具有动态混合的视觉 MLP 架构

本文提出了一个称为 Dyn Mixer 的高效 MLP-like 深度学习网络结构，用于动态信息融合，并且通过一个过程生成融合矩阵，以应对 tokens 的内容，并通过采用降维技术和多段融合机制来减少时间复杂度和提高鲁棒性。Dyn Mixer 模型不需要额外的训练数据，在 ImageNet-1K 数据集上达到了 84.3％的准确率，参数数量减少到 26M 时，仍然获得 82.7％的 top-1 准确率，胜过类似容量的现有 MLP-like 模型。

Jan, 2022

自适应 Fourier 神经算子：用于 Transformer 的高效标记混合器

介绍一种名为 AFNO 的比自我注意力机制更有效的方法，它可处理高分辨率图片。它基于操作学习的原理，将令牌混合表示为一种连续的全局卷积，具有线性内存和近似线性时间复杂度，适用于 few-shot 分割任务，优于其他效率更高的自我注意力机制。

Nov, 2021