扩展 MLPs: 归纳偏差的故事

Jun, 2023

Scaling MLPs: A Tale of Inductive Bias

Gregor Bachmann, Sotiris Anagnostidis, Thomas Hofmann

TL;DR本研究重新探讨了深度学习最基本的构架之一 —— 多层感知机（MLP）在视觉任务中的性能极限，重点研究了不同规模下的预训练对于 MLP 性能的影响，揭示了缺乏归纳偏差时尺度扩展对于性能表现的提升。

Abstract

In this work we revisit the most fundamental building block in deep learning, the multi-layer perceptron (MLP), and study the limits of its performance on vision tasks. Empirical insights into MLPs are important

multi-layer perceptron inductive bias performance scale pre-training

发现论文，激发创造

缩放定律与模型架构：归纳偏置如何影响缩放？

本文通过系统研究了 Transformer、Switch Transformers、Universal Transformers、Dynamic convolutions、Performers 和 MLP-Mixers 等十个不同的模型架构的可扩展性行为，发现架构是进行扩展化的重要考虑因素之一，最佳表现的模型在不同尺度下可能会波动，并对如何评估模型架构在社区中的重要性具有重要影响。

Jul, 2022

迈向归纳偏差的精确计算

我们提出了一种计算归纳偏差的新方法，该方法涉及对来自假设空间的随机假设的损失分布进行建模，以估计相对于这些假设需要的归纳偏差，从而提供了一种信息理论解释特定模型架构对特定任务的好处的度量，并为开发需要更大归纳偏差的任务提供了定量指导，从而鼓励更强大的归纳偏差的发展。

Jun, 2024

我们为新的范式转变做好准备了吗？对视觉 Deep MLP 的调查

本文综述了深度 MLP 模型在计算机视觉领域中的应用，从卷积、自注意力机制以及 Token-mixing MLP 的内在联系和区别进行了详细比较，分析了 MLP 变种的优缺点和应用，并提出了下一代计算设备和方法的发展方向。

Nov, 2021

探索反腐容忍性：视觉 Transformer 和 MLP-Mixer 中的归纳偏差

本研究探讨了视觉 transformer 模型、MLP 模型和 ResNet-50 模型的鲁棒性，发现视觉 transformer 模型在面临数据破坏时比 ResNet-50 模型和 MLP-Mixer 模型更具鲁棒性，并且拥有更强的形状偏差。

Jun, 2021

深度学习中隐式正则化的作用：寻找真正的归纳偏差

文章提出了实验结果，证明其他形式的容量控制与网络规模不同，在学习多层前馈网络中起着中心作用。作者通过类比矩阵分解来论证这是一种归纳偏差，有助于揭示深度学习的内在机理。

Dec, 2014

Transformer 模型对学习低敏感性函数的简洁倾向

通过对变压器在随机输入变化的敏感性进行研究，揭示了其简约偏差以及频谱偏差，并发现低敏感性偏差与提高鲁棒性相关，并可作为进一步提高变压器鲁棒性的有效干预手段。

Mar, 2024

关注多层感知器

本文提出了一种基于 MLP 的简单网络架构 gMLP，与 Transformer 一样，在关键的自然语言处理和计算机视觉应用中表现不亚于 Transformer。同时，作者进行比较表明，自注意力（self-attention）不是视觉 Transformer 的关键，因为 gMLP 可以实现相同的准确性。}

May, 2021

神经红移：随机网络不是随机函数

神经网络的归纳偏见和简单性偏见对于深度学习的成功是重要的，可以通过不同的架构进行控制。

Mar, 2024

多层感知器学习上下文

在这项研究中，我们发现多层感知器（MLPs）和密切相关的 MLP-Mixer 模型可以像 Transformer 模型一样有效地进行上下文学习，并且在一些涉及关系推理的任务中，MLPs 表现更优，这一结果挑战了以往对简单连通模型的一些假设。

May, 2024

侧化 MLP：扩散的简单脑启发架构

基于大脑侧化的灵感，我们提出了一种简单而有效的架构 L-MLP，它基于多层感知器并在处理数据维度时进行排列、并行处理和合并，通过连接的 MLP 传递。我们发现这种设计优于其他 MLP 变体，在挑战性的扩散任务中与基于 Transformer 的架构相媲美，同时具有高效性。使用文本到图像生成任务进行实验，证明了 L-MLP 的有效性和高效性。

May, 2024