稀疏 MLP 用于图像识别：自注意力真的必要吗？

AAAISep, 2021

稀疏 MLP 用于图像识别：自注意力真的必要吗？

Sparse MLP for Image Recognition: Is Self-Attention Really Necessary?

Chuanxin Tang, Yucheng Zhao, Guangting Wang, Chong Luo, Wenxuan Xie...

TL;DR本文研究了 Transformer 的核心自注意力机制在图像识别领域中扮演的关键角色。作者提出了一种名为 sMLPNet 的无注意力网络，其中使用了一种新的稀疏 MLP（sMLP）模块，避免了常见的过拟合问题，取得了优异的结果。

Abstract

transformers have sprung up in the field of computer vision. In this work, we explore whether the core self-attention module in Transformer is the key to achieving excellent performance in →

transformers self-attention module image recognition sparse mlp over-fitting

发现论文，激发创造

MDMLP: 使用 MLP 在小数据集上从零开始进行图像分类

本文研究了注意力机制对于自然语言处理和图像识别任务的应用。通过提出一种轻量级的基于 MLP 的多维 MLP 结构，并采用新型的 MLP 注意力工具，我们实现了在小数据集上的从头训练的 SOTA 结果，同时具备出色的解释能力。

May, 2022

MLP 可以成为优秀的 Transformer 学习器

通过对非必要的 attention layers 进行选择性去除，本文提出了一种简化视觉 transformer 并减少计算负载的新策略，通过熵的考虑，将不具信息量的 attention layers 整合到相应的 MLP 中，实现仅在某些 transformer blocks 中使用 MLP，实验结果显示该方法可以提高 DeiT-B 的吞吐量和内存限制，并在不影响性能的情况下去除 40% 的 attention layer。

Apr, 2024

S$^2$-MLP: 视觉任务空间平移 MLP 架构

本文提出一种新颖的 MLP 架构，空间平移 MLP (S$^2$-MLP)，只包含通道混合 MLP，利用局部接收场进行补丁之间的通信，其参数自由且计算效率高，比 MLP-Mixer 在 ImageNet-1K 数据集上获得更高的识别精度，同时具有与 ViT 相当的性能且更简单的架构。

Jun, 2021

关注多层感知器

本文提出了一种基于 MLP 的简单网络架构 gMLP，与 Transformer 一样，在关键的自然语言处理和计算机视觉应用中表现不亚于 Transformer。同时，作者进行比较表明，自注意力（self-attention）不是视觉 Transformer 的关键，因为 gMLP 可以实现相同的准确性。}

May, 2021

少即是多：在视觉 Transformer 网络中降低注意力

我们提出了一种基于层次结构以及多层感知器与自注意力模块相结合的 Less attention vIsion Transformer（LIT）来提高特征提取效率，并通过学习可变形 Token 合并模块自适应的融合不均匀的信息块，以达到在图像分类、物体检测和实例分割等图像识别任务中具有很好的性能。

May, 2021

无需注意力的关键词检测

本文探讨了是否自注意力在识别语音关键词方面是否真的不可替代，提出了一种高效的小型化门控多层感知机模型，证明该方法在语音关键词检测方面的性能表现强于自注意力方法且参数量更少。

Oct, 2021

仅关注注意力的 Transformer 模型及使用注意力头实现的 MLP

证明了一个 MLP 神经元可以通过具有内部维度 1 的带有掩码注意力头来实现，只要 MLP 的激活函数来自包括 SiLU 以及接近 ReLU 和 GeLU 的受限类。同时证明了注意力头可以分别执行 MLP 的组成部分（线性变换和激活函数），并且可以在其权重矩阵中编码任意的掩码模式，误差可以任意小。

Sep, 2023

我们为新的范式转变做好准备了吗？对视觉 Deep MLP 的调查

本文综述了深度 MLP 模型在计算机视觉领域中的应用，从卷积、自注意力机制以及 Token-mixing MLP 的内在联系和区别进行了详细比较，分析了 MLP 变种的优缺点和应用，并提出了下一代计算设备和方法的发展方向。

Nov, 2021

MLP-Mixer: 一种用于视觉的全 MLP 架构

本文提出了一种基于多层感知器 (MLP) 的架构，MLP-Mixer，它不需要使用卷积和注意力机制，包含两种类型的层，一种将 MLP 应用于图像补丁，一种将 MLP 应用于补丁之间的位置信息，具有与现代 CNN 和 Transformer 相媲美的预训练和推理成本，希望鼓励更多超越 CNN 和 Transformer 的研究。

May, 2021

注意力不是唯一的解决方案：仅仅使用注意力机制会随着深度呈双倍指数级别的降低

本研究提出了一种新的方法来理解自我注意网络：我们展示了它们的输出可以分解为若干关注头跨层序列的操作所涉及的小项相加，通过这种分解，我们证明了自我注意具有强烈的归纳偏差，具体表现为 “令牌均匀性”；实验证明，不同变体的标准转换器体系结构存在收敛现象。

Mar, 2021