分层联想记忆、并行化 MLP-Mixer 和对称性破坏

Jun, 2024

分层联想记忆、并行化 MLP-Mixer 和对称性破坏

Hierarchical Associative Memory, Parallelized MLP-Mixer, and Symmetry Breaking

Ryo Karakida, Toshihiro Ota, Masato Taki

TL;DR通过将 Krotov 的分层关联记忆与 MetaFormers 相结合，该论文提出了一种新的视角，将整个 Transformer 块的完整表示，包括标记 -/ 通道混合模块、层归一化和跳跃连接，作为一个单一的 Hopfield 网络。该方法产生了一个并行化的从三层 Hopfield 网络推导出的 MLP-Mixer，自然地融合了对称的标记 -/ 通道混合模块和层归一化。实证研究揭示了模型中的对称交互矩阵阻碍了图像识别任务的性能。引入破坏对称效果将对称并行化的 MLP-Mixer 的性能过渡到普通 MLP-Mixer 的性能。这表明在标准训练过程中，普通 MLP-Mixer 的权重矩阵自发地获得对称破缺配置，增强了其有效性。这些发现为 Transformer 和 MLP-Mixer 的内在特性及其理论基础提供了见解，为未来模型设计和优化提供了一个稳健的框架。

Abstract

transformers have established themselves as the leading neural network model in natural language processing and are increasingly foundational in various domains. In vision, the MLP-Mixer model has demonstrated competitive performance, suggesting that →

transformers attention mechanisms metaformers hopfield network symmetry-breaking

发现论文，激发创造

iMixer：分层 Hopfield 网络实现可逆、隐式、迭代的 MLP-Mixer

本文研究了一种基于 Hopfield 网络的新型神经网络模型 iMixer，对多个图像分类数据集的实验结果显示其表现优于传统 MLP-Mixer 模型，揭示了 Hopfield 网络与 Mixers 之间的关联可作为 Transformer 类型架构设计的原理。

Apr, 2023

HyperMixer：基于 MLP 的绿色 AI 替代 Transformer

本文提出 HyperMixer 模型，通过使用超网络动态形成令牌混合 MLP 实现自然语言理解，相比于现有的 MLP-based 模型和 Transformer，在处理时间、训练数据和超参数调整方面具有更低的成本，并在实证中表现更好。

Mar, 2022

Mixer 不仅仅是一个模型

这篇研究论文介绍了一种名为 ASM-RH 的新型模型，它结合了时间和频率域的特点，特别适用于音频数据，并在多个分类任务中取得了有希望的成果。

Feb, 2024

MetaFormer 对于计算机视觉是必不可少的

通过取代 Transformers 中的注意力机制，使用空间 MLPs，从而验证了 Transformers 的总体架构（MetaFormer）对模型性能的贡献更为关键。提出了 MetaFormer 的概念，这是一个抽象出 Transformers 中 token mixer 以外的通用架构，并将提出的 PoolFormer 作为未来 MetaFormer 架构设计的起点基线模型。

Nov, 2021

MetaMixer 是你所需要的一切

通过将自注意力转换为采用大型卷积和 GELU 激活函数的更类似于 Feed-Forward Network 的有效令牌混合器，作者尝试验证了查询 - 键 - 值框架的重要性，并提出了一种新的混合器体系结构 MetaMixer，在仅使用简单操作（如卷积和 GELU）的情况下取得了卓越的性能改进。

Jun, 2024

MLP-Mixer: 一种用于视觉的全 MLP 架构

本文提出了一种基于多层感知器 (MLP) 的架构，MLP-Mixer，它不需要使用卷积和注意力机制，包含两种类型的层，一种将 MLP 应用于图像补丁，一种将 MLP 应用于补丁之间的位置信息，具有与现代 CNN 和 Transformer 相媲美的预训练和推理成本，希望鼓励更多超越 CNN 和 Transformer 的研究。

May, 2021

Transformer vs. MLP-Mixer: 自然语言处理问题的指数表达差距

本文分析了基于 MLP 的体系结构模拟多个不同输入之间依赖关系的表达能力，并展示了注意力机制和基于 MLP 的机制之间的指数差距，从而提供了 MLP 无法与注意力机制在 NLP 问题中竞争的理论解释。此外，文中还提出，MLP 相对于注意力机制在建模多个不同位置之间的依赖关系的能力较弱，而将智能输入排列与 MLP 体系结构结合可能不足以单独消除性能差距。

Aug, 2022

超越缩放定律：理解具有关联记忆的 Transformer 性能

增加 Transformer 模型的大小并不总是导致性能提升，用经验缩放定律无法解释此现象。此外，模型记忆训练样本会改善泛化能力。我们提出了一个理论框架，揭示了基于 Transformer 的语言模型的记忆过程和性能动态。我们使用关联记忆的 Hopfield 网络来模拟 Transformer 的行为，使每个 Transformer 模块能够有效进行近似最近邻搜索。基于此，我们设计了一个能量函数，类似于现代连续 Hopfield 网络中的函数，对注意力机制提供了有见地的解释。利用最大化 - 最小化技术，我们构建了一个全局能量函数，捕捉了 Transformer 的层次结构。在特定条件下，我们证明了最小可达的交叉熵损失下界约为 1。通过对不同数据规模运行 GPT-2 实验证实了我们的理论结果，以及在一个包含 2M 令牌的数据集上训练 vanilla Transformers。

May, 2024

维度混合器：深度神经网络中结构稀疏性的通用方法

研究了多个神经架构之间的相似性和差异性，通过对耦合流与蝴蝶变换的研究，提出了非线性蝴蝶混合器，包括 Butterfly MLP 和 Butterfly Attention，证明了它们在处理不同维度的输入上的高效性和可扩展性。

Nov, 2023

Branchformer: 并行 MLP-Attention 结构用于语音识别和理解中的局部和全局上下文抓取

本文章提出一种基于自注意力机制和 MLP 模块的可定制语音转录模型 Branchformer，其可以同时提取全局和局部依赖关系，并且在多项基准测试上均胜过了 Transformer 和 cgMLP，与 Conformer 的表现相当。此外，该模型具有双分支结构，可以降低计算复杂度。

Jul, 2022