我们为新的范式转变做好准备了吗？对视觉 Deep MLP 的调查

Nov, 2021

我们为新的范式转变做好准备了吗？对视觉 Deep MLP 的调查

Are we ready for a new paradigm shift? A Survey on Visual Deep MLP

Ruiyang Liu, Yinghui Li, Linmi Tao, Dun Liang, Hai-Tao Zheng

TL;DR本文综述了深度 MLP 模型在计算机视觉领域中的应用，从卷积、自注意力机制以及 Token-mixing MLP 的内在联系和区别进行了详细比较，分析了 MLP 变种的优缺点和应用，并提出了下一代计算设备和方法的发展方向。

Abstract

Recently, the proposed deep mlp models have stirred up a lot of interest in the vision community. Historically, the availability of larger datasets combined with increased computing capacity leads to paradigm shifts. This review paper provides detailed discussions on whether MLP can be

deep mlp computer vision convolution self-attention mechanism token-mixing mlp

发现论文，激发创造

MDMLP: 使用 MLP 在小数据集上从零开始进行图像分类

本文研究了注意力机制对于自然语言处理和图像识别任务的应用。通过提出一种轻量级的基于 MLP 的多维 MLP 结构，并采用新型的 MLP 注意力工具，我们实现了在小数据集上的从头训练的 SOTA 结果，同时具备出色的解释能力。

May, 2022

MLP-Mixer: 一种用于视觉的全 MLP 架构

本文提出了一种基于多层感知器 (MLP) 的架构，MLP-Mixer，它不需要使用卷积和注意力机制，包含两种类型的层，一种将 MLP 应用于图像补丁，一种将 MLP 应用于补丁之间的位置信息，具有与现代 CNN 和 Transformer 相媲美的预训练和推理成本，希望鼓励更多超越 CNN 和 Transformer 的研究。

May, 2021

关注多层感知器

本文提出了一种基于 MLP 的简单网络架构 gMLP，与 Transformer 一样，在关键的自然语言处理和计算机视觉应用中表现不亚于 Transformer。同时，作者进行比较表明，自注意力（self-attention）不是视觉 Transformer 的关键，因为 gMLP 可以实现相同的准确性。}

May, 2021

S$^2$-MLP: 视觉任务空间平移 MLP 架构

本文提出一种新颖的 MLP 架构，空间平移 MLP (S$^2$-MLP)，只包含通道混合 MLP，利用局部接收场进行补丁之间的通信，其参数自由且计算效率高，比 MLP-Mixer 在 ImageNet-1K 数据集上获得更高的识别精度，同时具有与 ViT 相当的性能且更简单的架构。

Jun, 2021

MLP-3D：一种带有分组时间混合的类 MLP 3D 架构

本文使用 MLP-3D 网络结构实现了基于 token-mixing MLP 和 time mixing 的时序模型，并通过多种不同的 grouping 策略对 GTM 进行了改进，在不使用卷积或 self-attention 机制的情况下，在 Something-Something V2 和 Kinetics-400 数据集上分别实现了 68.5％/ 81.4％的 top-1 准确率，性能与 3D CNNs 和 video transformers 不相上下。

Jun, 2022

网络结构之战：CNN、Transformer 和 MLP 的实证研究

本文比较了卷积神经网络、Transformer、multi-layer perceptron 等算法的优劣，并在 SPACH 框架下进行了实验，结果显示，使用卷积和 Transformer 模块的混合模型已经能够实现与其他模型相同的准确率。

Aug, 2021

扩展 MLPs: 归纳偏差的故事

本研究重新探讨了深度学习最基本的构架之一 —— 多层感知机（MLP）在视觉任务中的性能极限，重点研究了不同规模下的预训练对于 MLP 性能的影响，揭示了缺乏归纳偏差时尺度扩展对于性能表现的提升。

Jun, 2023

稀疏 MLP 用于图像识别：自注意力真的必要吗？

本文研究了 Transformer 的核心自注意力机制在图像识别领域中扮演的关键角色。作者提出了一种名为 sMLPNet 的无注意力网络，其中使用了一种新的稀疏 MLP（sMLP）模块，避免了常见的过拟合问题，取得了优异的结果。

Sep, 2021

分层联想记忆、并行化 MLP-Mixer 和对称性破坏

通过将 Krotov 的分层关联记忆与 MetaFormers 相结合，该论文提出了一种新的视角，将整个 Transformer 块的完整表示，包括标记 -/ 通道混合模块、层归一化和跳跃连接，作为一个单一的 Hopfield 网络。该方法产生了一个并行化的从三层 Hopfield 网络推导出的 MLP-Mixer，自然地融合了对称的标记 -/ 通道混合模块和层归一化。实证研究揭示了模型中的对称交互矩阵阻碍了图像识别任务的性能。引入破坏对称效果将对称并行化的 MLP-Mixer 的性能过渡到普通 MLP-Mixer 的性能。这表明在标准训练过程中，普通 MLP-Mixer 的权重矩阵自发地获得对称破缺配置，增强了其有效性。这些发现为 Transformer 和 MLP-Mixer 的内在特性及其理论基础提供了见解，为未来模型设计和优化提供了一个稳健的框架。

Jun, 2024

X-MLP: 一个无需 Patch 嵌入的 MLP 视觉架构

提出一种基于全连接层的 MLP 体系结构 X-MLP，比现有的 MLP 模型和 CNNs 略表现更好，在多个基准数据集上进行了测试，具有捕捉长距离依赖性的特点。

Jul, 2023