稀疏 MLP 用于图像识别:自注意力真的必要吗?
本文研究了注意力机制对于自然语言处理和图像识别任务的应用。通过提出一种轻量级的基于 MLP 的多维 MLP 结构,并采用新型的 MLP 注意力工具,我们实现了在小数据集上的从头训练的 SOTA 结果,同时具备出色的解释能力。
May, 2022
通过对非必要的 attention layers 进行选择性去除,本文提出了一种简化视觉 transformer 并减少计算负载的新策略,通过熵的考虑,将不具信息量的 attention layers 整合到相应的 MLP 中,实现仅在某些 transformer blocks 中使用 MLP,实验结果显示该方法可以提高 DeiT-B 的吞吐量和内存限制,并在不影响性能的情况下去除 40% 的 attention layer。
Apr, 2024
本文提出一种新颖的 MLP 架构,空间平移 MLP (S$^2$-MLP),只包含通道混合 MLP,利用局部接收场进行补丁之间的通信,其参数自由且计算效率高,比 MLP-Mixer 在 ImageNet-1K 数据集上获得更高的识别精度,同时具有与 ViT 相当的性能且更简单的架构。
Jun, 2021
本文提出了一种基于 MLP 的简单网络架构 gMLP,与 Transformer 一样,在关键的自然语言处理和计算机视觉应用中表现不亚于 Transformer。同时,作者进行比较表明,自注意力(self-attention)不是视觉 Transformer 的关键,因为 gMLP 可以实现相同的准确性。}
May, 2021
我们提出了一种基于层次结构以及多层感知器与自注意力模块相结合的 Less attention vIsion Transformer(LIT)来提高特征提取效率,并通过学习可变形 Token 合并模块自适应的融合不均匀的信息块,以达到在图像分类、物体检测和实例分割等图像识别任务中具有很好的性能。
May, 2021
本文探讨了是否自注意力在识别语音关键词方面是否真的不可替代,提出了一种高效的小型化门控多层感知机模型,证明该方法在语音关键词检测方面的性能表现强于自注意力方法且参数量更少。
Oct, 2021
证明了一个 MLP 神经元可以通过具有内部维度 1 的带有掩码注意力头来实现,只要 MLP 的激活函数来自包括 SiLU 以及接近 ReLU 和 GeLU 的受限类。同时证明了注意力头可以分别执行 MLP 的组成部分(线性变换和激活函数),并且可以在其权重矩阵中编码任意的掩码模式,误差可以任意小。
Sep, 2023
本文综述了深度 MLP 模型在计算机视觉领域中的应用,从卷积、自注意力机制以及 Token-mixing MLP 的内在联系和区别进行了详细比较,分析了 MLP 变种的优缺点和应用,并提出了下一代计算设备和方法的发展方向。
Nov, 2021
本文提出了一种基于多层感知器 (MLP) 的架构,MLP-Mixer,它不需要使用卷积和注意力机制,包含两种类型的层,一种将 MLP 应用于图像补丁,一种将 MLP 应用于补丁之间的位置信息,具有与现代 CNN 和 Transformer 相媲美的预训练和推理成本,希望鼓励更多超越 CNN 和 Transformer 的研究。
May, 2021
本研究提出了一种新的方法来理解自我注意网络:我们展示了它们的输出可以分解为若干关注头跨层序列的操作所涉及的小项相加,通过这种分解,我们证明了自我注意具有强烈的归纳偏差,具体表现为 “令牌均匀性”;实验证明,不同变体的标准转换器体系结构存在收敛现象。
Mar, 2021