我们为新的范式转变做好准备了吗?对视觉 Deep MLP 的调查
本文研究了注意力机制对于自然语言处理和图像识别任务的应用。通过提出一种轻量级的基于 MLP 的多维 MLP 结构,并采用新型的 MLP 注意力工具,我们实现了在小数据集上的从头训练的 SOTA 结果,同时具备出色的解释能力。
May, 2022
本文提出了一种基于多层感知器 (MLP) 的架构,MLP-Mixer,它不需要使用卷积和注意力机制,包含两种类型的层,一种将 MLP 应用于图像补丁,一种将 MLP 应用于补丁之间的位置信息,具有与现代 CNN 和 Transformer 相媲美的预训练和推理成本,希望鼓励更多超越 CNN 和 Transformer 的研究。
May, 2021
本文提出了一种基于 MLP 的简单网络架构 gMLP,与 Transformer 一样,在关键的自然语言处理和计算机视觉应用中表现不亚于 Transformer。同时,作者进行比较表明,自注意力(self-attention)不是视觉 Transformer 的关键,因为 gMLP 可以实现相同的准确性。}
May, 2021
本文提出一种新颖的 MLP 架构,空间平移 MLP (S$^2$-MLP),只包含通道混合 MLP,利用局部接收场进行补丁之间的通信,其参数自由且计算效率高,比 MLP-Mixer 在 ImageNet-1K 数据集上获得更高的识别精度,同时具有与 ViT 相当的性能且更简单的架构。
Jun, 2021
本文使用 MLP-3D 网络结构实现了基于 token-mixing MLP 和 time mixing 的时序模型,并通过多种不同的 grouping 策略对 GTM 进行了改进,在不使用卷积或 self-attention 机制的情况下,在 Something-Something V2 和 Kinetics-400 数据集上分别实现了 68.5%/ 81.4%的 top-1 准确率,性能与 3D CNNs 和 video transformers 不相上下。
Jun, 2022
本文比较了卷积神经网络、Transformer、multi-layer perceptron 等算法的优劣,并在 SPACH 框架下进行了实验,结果显示,使用卷积和 Transformer 模块的混合模型已经能够实现与其他模型相同的准确率。
Aug, 2021
本研究重新探讨了深度学习最基本的构架之一 —— 多层感知机(MLP)在视觉任务中的性能极限,重点研究了不同规模下的预训练对于 MLP 性能的影响,揭示了缺乏归纳偏差时尺度扩展对于性能表现的提升。
Jun, 2023
本文研究了 Transformer 的核心自注意力机制在图像识别领域中扮演的关键角色。作者提出了一种名为 sMLPNet 的无注意力网络,其中使用了一种新的稀疏 MLP(sMLP)模块,避免了常见的过拟合问题,取得了优异的结果。
Sep, 2021
通过将 Krotov 的分层关联记忆与 MetaFormers 相结合,该论文提出了一种新的视角,将整个 Transformer 块的完整表示,包括标记 -/ 通道混合模块、层归一化和跳跃连接,作为一个单一的 Hopfield 网络。该方法产生了一个并行化的从三层 Hopfield 网络推导出的 MLP-Mixer,自然地融合了对称的标记 -/ 通道混合模块和层归一化。实证研究揭示了模型中的对称交互矩阵阻碍了图像识别任务的性能。引入破坏对称效果将对称并行化的 MLP-Mixer 的性能过渡到普通 MLP-Mixer 的性能。这表明在标准训练过程中,普通 MLP-Mixer 的权重矩阵自发地获得对称破缺配置,增强了其有效性。这些发现为 Transformer 和 MLP-Mixer 的内在特性及其理论基础提供了见解,为未来模型设计和优化提供了一个稳健的框架。
Jun, 2024
提出一种基于全连接层的 MLP 体系结构 X-MLP,比现有的 MLP 模型和 CNNs 略表现更好,在多个基准数据集上进行了测试,具有捕捉长距离依赖性的特点。
Jul, 2023