扩展 MLPs: 归纳偏差的故事
本文通过系统研究了 Transformer、Switch Transformers、Universal Transformers、Dynamic convolutions、Performers 和 MLP-Mixers 等十个不同的模型架构的可扩展性行为,发现架构是进行扩展化的重要考虑因素之一,最佳表现的模型在不同尺度下可能会波动,并对如何评估模型架构在社区中的重要性具有重要影响。
Jul, 2022
我们提出了一种计算归纳偏差的新方法,该方法涉及对来自假设空间的随机假设的损失分布进行建模,以估计相对于这些假设需要的归纳偏差,从而提供了一种信息理论解释特定模型架构对特定任务的好处的度量,并为开发需要更大归纳偏差的任务提供了定量指导,从而鼓励更强大的归纳偏差的发展。
Jun, 2024
本文综述了深度 MLP 模型在计算机视觉领域中的应用,从卷积、自注意力机制以及 Token-mixing MLP 的内在联系和区别进行了详细比较,分析了 MLP 变种的优缺点和应用,并提出了下一代计算设备和方法的发展方向。
Nov, 2021
本研究探讨了视觉 transformer 模型、MLP 模型和 ResNet-50 模型的鲁棒性,发现视觉 transformer 模型在面临数据破坏时比 ResNet-50 模型和 MLP-Mixer 模型更具鲁棒性,并且拥有更强的形状偏差。
Jun, 2021
文章提出了实验结果,证明其他形式的容量控制与网络规模不同,在学习多层前馈网络中起着中心作用。 作者通过类比矩阵分解来论证这是一种归纳偏差,有助于揭示深度学习的内在机理。
Dec, 2014
通过对变压器在随机输入变化的敏感性进行研究,揭示了其简约偏差以及频谱偏差,并发现低敏感性偏差与提高鲁棒性相关,并可作为进一步提高变压器鲁棒性的有效干预手段。
Mar, 2024
本文提出了一种基于 MLP 的简单网络架构 gMLP,与 Transformer 一样,在关键的自然语言处理和计算机视觉应用中表现不亚于 Transformer。同时,作者进行比较表明,自注意力(self-attention)不是视觉 Transformer 的关键,因为 gMLP 可以实现相同的准确性。}
May, 2021
在这项研究中,我们发现多层感知器(MLPs)和密切相关的 MLP-Mixer 模型可以像 Transformer 模型一样有效地进行上下文学习,并且在一些涉及关系推理的任务中,MLPs 表现更优,这一结果挑战了以往对简单连通模型的一些假设。
May, 2024
基于大脑侧化的灵感,我们提出了一种简单而有效的架构 L-MLP,它基于多层感知器并在处理数据维度时进行排列、并行处理和合并,通过连接的 MLP 传递。我们发现这种设计优于其他 MLP 变体,在挑战性的扩散任务中与基于 Transformer 的架构相媲美,同时具有高效性。使用文本到图像生成任务进行实验,证明了 L-MLP 的有效性和高效性。
May, 2024