动态频谱混合器用于视觉识别

Sep, 2023

Dynamic Spectrum Mixer for Visual Recognition

Zhiqiang Hu, Tao Yu

TL;DR提出了一种自适应结构，名为动态谱混合器（DSM），该结构通过使用离散余弦变换在频域表示标记间的相互作用，能够以对数线性复杂度学习长期空间依赖性，并通过动态频谱权重生成层实现信息频段的突出，从而高效地学习包含高低频信息的视觉输入的详细特征。全面的实验证明，DSM 是一种功能强大且适应性强的骨干网络，适用于各种视觉识别任务。

Abstract

Recently, mlp-based vision backbones have achieved promising performance in several visual recognition tasks. However, the existing MLP-based methods directly aggregate tokens with static weights, leaving the ada

mlp-based vision backbones adaptive structure dynamic spectrum mixer (dsm)discrete cosine transform visual recognition tasks

发现论文，激发创造

DynaMixer：一种具有动态混合的视觉 MLP 架构

本文提出了一个称为 Dyn Mixer 的高效 MLP-like 深度学习网络结构，用于动态信息融合，并且通过一个过程生成融合矩阵，以应对 tokens 的内容，并通过采用降维技术和多段融合机制来减少时间复杂度和提高鲁棒性。Dyn Mixer 模型不需要额外的训练数据，在 ImageNet-1K 数据集上达到了 84.3％的准确率，参数数量减少到 26M 时，仍然获得 82.7％的 top-1 准确率，胜过类似容量的现有 MLP-like 模型。

Jan, 2022

基于 FFT 的视觉动态令牌混合器

提出了一种新的动态滤波器 Token-mixer，与 MHSA 类似，但计算复杂度较低，并在图像识别中达到了与卷积和 MHSA 混合架构相近的精度水平，对于处理高分辨率图像的吞吐量和内存效率优于 CAFormer。

Mar, 2023

基于 Transformer 的多模态变化检测与多任务一致性约束

基于跨维度输入的一种有效的基于 Transformer 的网络用于改变检测，通过交叉关注学习了跨维度输入之间的共享表示，采用一致性约束建立了多模态关系，并通过高度改变阈值和最小化语义与伪改变之间的不同来解决语义和高度改变检测任务之间的多任务冲突。该模型在荷兰的三个城市构建了包含 DSM 到影像的多模态数据集，相对于其他五种先进的改变检测方法，表现出了一致的多任务优势，同时该一致性策略也可以无缝地适用于其他方法，取得了可喜的改进。

Oct, 2023

Mixer 不仅仅是一个模型

这篇研究论文介绍了一种名为 ASM-RH 的新型模型，它结合了时间和频率域的特点，特别适用于音频数据，并在多个分类任务中取得了有希望的成果。

Feb, 2024

动态空间稀疏化：用于高效视觉 Transformer 和卷积神经网络的优化

本文提出了一种通过利用视觉数据中的空间稀疏性进行模型加速的新方法，该方法基于所提出的动态令牌稀疏化框架，并通过自适应和不对称计算等方式推广到各种体系结构中，通过对不重要的特征使用轻量级快速路径和对更重要位置使用更具表现力的慢速路径，可以显著减少总体计算量，实验结果表明动态空间稀疏化为模型加速提供了新的更有效的解决方案。

Jul, 2022

在频域中高效地学习算子

本文介绍一种基于单个信号变换的频域学习模型，通过方差保持初始化方法和频率选择技术，可以简化模型设计，从而在各种动态系统的学习中获得更高的测试性能和更少的计算成本。

Nov, 2022

维度混合器：深度神经网络中结构稀疏性的通用方法

研究了多个神经架构之间的相似性和差异性，通过对耦合流与蝴蝶变换的研究，提出了非线性蝴蝶混合器，包括 Butterfly MLP 和 Butterfly Attention，证明了它们在处理不同维度的输入上的高效性和可扩展性。

Nov, 2023

CS-Mixer: 一个具有空间 - 通道混合的跨尺度视觉 MLP 模型

提出了一种通过跨尺度的本地和全局聚合学习动态低秩变换以实现空间通道混合的分层视觉 MLP（Vision MLP）方法，该方法在流行的图像识别基准测试中取得了有竞争力的结果。

Aug, 2023

TransXNet: 通过双动态令牌混合器学习全局和局部动态以进行视觉识别

提出了一种轻量级的 Dual Dynamic Token Mixer (D-Mixer) 来聚合全局信息和局部细节，通过在特征分段上分别应用高效的全局注意力模块和输入相关的深度可分离卷积，为网络赋予了强大的归纳偏差和扩大的有效感受野。使用 D-Mixer 作为基本构建块设计了 TransXNet，这是一个新颖的混合 CNN-Transformer 视觉主干网络，在 ImageNet-1K 图像分类任务中，TransXNet-T 在 top-1 准确率方面超过了 Swin-T 0.3％，同时仅需要不到一半的计算成本，此外，TransXNet-S 和 TransXNet-B 在合理的计算成本下表现出色，分别达到 83.8％和 84.6％的 top-1 准确率。此外，提议的网络架构在各种密集预测任务中表现出强大的泛化能力，优于其他最先进网络，同时计算成本较低。

Oct, 2023

DS-Net++：用于 CNN 和 Transformers 的高效推理的动态权重切片

本文提出 DS-Net 和 DS-Net ++，两种基于动态权重分割的动态可裁剪网络。通过改变卷积神经网络 (CNNs) 或变压器 (transformers) 的滤波器数量和维度，以使其适应输入的不同难度水平，从而实现硬件有效的动态推理范式，同时保持网络参数静态和连续存储。与静态和动态模型压缩方法相比，大量实验表明，该方法具有更好的性能 (高达 6.6% 的提升)。

Sep, 2021