HyperMixer:基于 MLP 的绿色 AI 替代 Transformer
本文研究了一种基于 Hopfield 网络的新型神经网络模型 iMixer,对多个图像分类数据集的实验结果显示其表现优于传统 MLP-Mixer 模型,揭示了 Hopfield 网络与 Mixers 之间的关联可作为 Transformer 类型架构设计的原理。
Apr, 2023
通过将 Krotov 的分层关联记忆与 MetaFormers 相结合,该论文提出了一种新的视角,将整个 Transformer 块的完整表示,包括标记 -/ 通道混合模块、层归一化和跳跃连接,作为一个单一的 Hopfield 网络。该方法产生了一个并行化的从三层 Hopfield 网络推导出的 MLP-Mixer,自然地融合了对称的标记 -/ 通道混合模块和层归一化。实证研究揭示了模型中的对称交互矩阵阻碍了图像识别任务的性能。引入破坏对称效果将对称并行化的 MLP-Mixer 的性能过渡到普通 MLP-Mixer 的性能。这表明在标准训练过程中,普通 MLP-Mixer 的权重矩阵自发地获得对称破缺配置,增强了其有效性。这些发现为 Transformer 和 MLP-Mixer 的内在特性及其理论基础提供了见解,为未来模型设计和优化提供了一个稳健的框架。
Jun, 2024
本文分析了基于 MLP 的体系结构模拟多个不同输入之间依赖关系的表达能力,并展示了注意力机制和基于 MLP 的机制之间的指数差距,从而提供了 MLP 无法与注意力机制在 NLP 问题中竞争的理论解释。此外,文中还提出,MLP 相对于注意力机制在建模多个不同位置之间的依赖关系的能力较弱,而将智能输入排列与 MLP 体系结构结合可能不足以单独消除性能差距。
Aug, 2022
介绍了一种低内存、低延迟基于 MLP-Mixer 的 pNLP-Mixer 模型,通过在语言学上指导投影层,实现了高效的语义分析,达到了与 38 倍参数的 mBERT 相当的性能。
Feb, 2022
本文提出了一种基于多层感知器 (MLP) 的架构,MLP-Mixer,它不需要使用卷积和注意力机制,包含两种类型的层,一种将 MLP 应用于图像补丁,一种将 MLP 应用于补丁之间的位置信息,具有与现代 CNN 和 Transformer 相媲美的预训练和推理成本,希望鼓励更多超越 CNN 和 Transformer 的研究。
May, 2021
本文提出了一个称为 Dyn Mixer 的高效 MLP-like 深度学习网络结构,用于动态信息融合,并且通过一个过程生成融合矩阵,以应对 tokens 的内容,并通过采用降维技术和多段融合机制来减少时间复杂度和提高鲁棒性。Dyn Mixer 模型不需要额外的训练数据,在 ImageNet-1K 数据集上达到了 84.3%的准确率,参数数量减少到 26M 时,仍然获得 82.7%的 top-1 准确率,胜过类似容量的现有 MLP-like 模型。
Jan, 2022
TSMixer 是一个轻量级的神经架构,由多层感知机模块组成,旨在为补丁时间序列提供高效的替代转换器。通过添加在线对账头,混合通道建模和简单的门控关注机制等组件,TSMixer 的学习能力得到显著提高。TSMixer 在预测方面的性能优于现有的 MLP 和 Transformer 模型,同时可显著减少存储器和运行时间。
Jun, 2023
本文研究线性模型在时间序列预测中的能力,提出了一个基于多层感知机的模型 TSMixer,通过在时间和特征维度上的混合操作提取信息。TSMixer 在常见的学术基准测试中表现出和专业模型类似的性能,在真实世界的 M5 基准测试数据集上表现出比先进模型更好的性能。本文的结果强调了有效利用交叉变量和辅助信息以提高时间序列预测性能的重要性,并且预计 TSMixer 的设计范例会为基于深度学习的时间序列预测开启新的视野。
Mar, 2023
本研究提出了一种名为 ChebMixer 的新型架构,它使用快速的基于 Chebyshev 多项式的谱滤波来提取一系列的节点表示,通过 MLP Mixer 对每个节点的多尺度表示进行改进,最终通过 Chebyshev 插值来聚合节点的多尺度表示,以提高下游任务的性能。
Mar, 2024