DynaMixer：一种具有动态混合的视觉 MLP 架构

ICMLJan, 2022

DynaMixer：一种具有动态混合的视觉 MLP 架构

DynaMixer: A Vision MLP Architecture with Dynamic Mixing

Ziyu Wang, Wenhao Jiang, Yiming Zhu, Li Yuan, Yibing Song...

TL;DR本文提出了一个称为 Dyn Mixer 的高效 MLP-like 深度学习网络结构，用于动态信息融合，并且通过一个过程生成融合矩阵，以应对 tokens 的内容，并通过采用降维技术和多段融合机制来减少时间复杂度和提高鲁棒性。Dyn Mixer 模型不需要额外的训练数据，在 ImageNet-1K 数据集上达到了 84.3％的准确率，参数数量减少到 26M 时，仍然获得 82.7％的 top-1 准确率，胜过类似容量的现有 MLP-like 模型。

Abstract

Recently, MLP-like vision models have achieved promising performances on mainstream visual recognition tasks. In contrast with vision transformers and CNNs, the success of mlp-like models shows that simple information fusion operations among →

mlp-like models dyn mixer dynamic information fusion tokens adaptability

发现论文，激发创造

MLP-Mixer: 一种用于视觉的全 MLP 架构

本文提出了一种基于多层感知器 (MLP) 的架构，MLP-Mixer，它不需要使用卷积和注意力机制，包含两种类型的层，一种将 MLP 应用于图像补丁，一种将 MLP 应用于补丁之间的位置信息，具有与现代 CNN 和 Transformer 相媲美的预训练和推理成本，希望鼓励更多超越 CNN 和 Transformer 的研究。

May, 2021

HyperMixer：基于 MLP 的绿色 AI 替代 Transformer

本文提出 HyperMixer 模型，通过使用超网络动态形成令牌混合 MLP 实现自然语言理解，相比于现有的 MLP-based 模型和 Transformer，在处理时间、训练数据和超参数调整方面具有更低的成本，并在实证中表现更好。

Mar, 2022

CS-Mixer: 一个具有空间 - 通道混合的跨尺度视觉 MLP 模型

提出了一种通过跨尺度的本地和全局聚合学习动态低秩变换以实现空间通道混合的分层视觉 MLP（Vision MLP）方法，该方法在流行的图像识别基准测试中取得了有竞争力的结果。

Aug, 2023

SplitMixer: MLP 模型中的脂肪裁剪

SplitMixer 是一个简单且轻量级的 MLP-like 架构，包含用于混合空间位置和通道信息的两种交替卷积操作，理论和实验证明它在准确性，参数数量和速度方面都表现出色。

Jul, 2022

维度混合器：深度神经网络中结构稀疏性的通用方法

研究了多个神经架构之间的相似性和差异性，通过对耦合流与蝴蝶变换的研究，提出了非线性蝴蝶混合器，包括 Butterfly MLP 和 Butterfly Attention，证明了它们在处理不同维度的输入上的高效性和可扩展性。

Nov, 2023

TransXNet: 通过双动态令牌混合器学习全局和局部动态以进行视觉识别

提出了一种轻量级的 Dual Dynamic Token Mixer (D-Mixer) 来聚合全局信息和局部细节，通过在特征分段上分别应用高效的全局注意力模块和输入相关的深度可分离卷积，为网络赋予了强大的归纳偏差和扩大的有效感受野。使用 D-Mixer 作为基本构建块设计了 TransXNet，这是一个新颖的混合 CNN-Transformer 视觉主干网络，在 ImageNet-1K 图像分类任务中，TransXNet-T 在 top-1 准确率方面超过了 Swin-T 0.3％，同时仅需要不到一半的计算成本，此外，TransXNet-S 和 TransXNet-B 在合理的计算成本下表现出色，分别达到 83.8％和 84.6％的 top-1 准确率。此外，提议的网络架构在各种密集预测任务中表现出强大的泛化能力，优于其他最先进网络，同时计算成本较低。

Oct, 2023

动态频谱混合器用于视觉识别

提出了一种自适应结构，名为动态谱混合器（DSM），该结构通过使用离散余弦变换在频域表示标记间的相互作用，能够以对数线性复杂度学习长期空间依赖性，并通过动态频谱权重生成层实现信息频段的突出，从而高效地学习包含高低频信息的视觉输入的详细特征。全面的实验证明，DSM 是一种功能强大且适应性强的骨干网络，适用于各种视觉识别任务。

Sep, 2023

Mixer 不仅仅是一个模型

这篇研究论文介绍了一种名为 ASM-RH 的新型模型，它结合了时间和频率域的特点，特别适用于音频数据，并在多个分类任务中取得了有希望的成果。

Feb, 2024

MDMLP: 使用 MLP 在小数据集上从零开始进行图像分类

本文研究了注意力机制对于自然语言处理和图像识别任务的应用。通过提出一种轻量级的基于 MLP 的多维 MLP 结构，并采用新型的 MLP 注意力工具，我们实现了在小数据集上的从头训练的 SOTA 结果，同时具备出色的解释能力。

May, 2022

MLP-3D：一种带有分组时间混合的类 MLP 3D 架构

本文使用 MLP-3D 网络结构实现了基于 token-mixing MLP 和 time mixing 的时序模型，并通过多种不同的 grouping 策略对 GTM 进行了改进，在不使用卷积或 self-attention 机制的情况下，在 Something-Something V2 和 Kinetics-400 数据集上分别实现了 68.5％/ 81.4％的 top-1 准确率，性能与 3D CNNs 和 video transformers 不相上下。

Jun, 2022