Jun, 2024

分层联想记忆、并行化 MLP-Mixer 和对称性破坏

TL;DR通过将 Krotov 的分层关联记忆与 MetaFormers 相结合,该论文提出了一种新的视角,将整个 Transformer 块的完整表示,包括标记 -/ 通道混合模块、层归一化和跳跃连接,作为一个单一的 Hopfield 网络。该方法产生了一个并行化的从三层 Hopfield 网络推导出的 MLP-Mixer,自然地融合了对称的标记 -/ 通道混合模块和层归一化。实证研究揭示了模型中的对称交互矩阵阻碍了图像识别任务的性能。引入破坏对称效果将对称并行化的 MLP-Mixer 的性能过渡到普通 MLP-Mixer 的性能。这表明在标准训练过程中,普通 MLP-Mixer 的权重矩阵自发地获得对称破缺配置,增强了其有效性。这些发现为 Transformer 和 MLP-Mixer 的内在特性及其理论基础提供了见解,为未来模型设计和优化提供了一个稳健的框架。