SplitMixer: MLP 模型中的脂肪裁剪
本文提出了一种基于多层感知器 (MLP) 的架构,MLP-Mixer,它不需要使用卷积和注意力机制,包含两种类型的层,一种将 MLP 应用于图像补丁,一种将 MLP 应用于补丁之间的位置信息,具有与现代 CNN 和 Transformer 相媲美的预训练和推理成本,希望鼓励更多超越 CNN 和 Transformer 的研究。
May, 2021
本文提出了一个称为 Dyn Mixer 的高效 MLP-like 深度学习网络结构,用于动态信息融合,并且通过一个过程生成融合矩阵,以应对 tokens 的内容,并通过采用降维技术和多段融合机制来减少时间复杂度和提高鲁棒性。Dyn Mixer 模型不需要额外的训练数据,在 ImageNet-1K 数据集上达到了 84.3%的准确率,参数数量减少到 26M 时,仍然获得 82.7%的 top-1 准确率,胜过类似容量的现有 MLP-like 模型。
Jan, 2022
提出了一种通过跨尺度的本地和全局聚合学习动态低秩变换以实现空间通道混合的分层视觉 MLP(Vision MLP)方法,该方法在流行的图像识别基准测试中取得了有竞争力的结果。
Aug, 2023
研究了多个神经架构之间的相似性和差异性,通过对耦合流与蝴蝶变换的研究,提出了非线性蝴蝶混合器,包括 Butterfly MLP 和 Butterfly Attention,证明了它们在处理不同维度的输入上的高效性和可扩展性。
Nov, 2023
本文提出一种新颖的 MLP 架构,空间平移 MLP (S$^2$-MLP),只包含通道混合 MLP,利用局部接收场进行补丁之间的通信,其参数自由且计算效率高,比 MLP-Mixer 在 ImageNet-1K 数据集上获得更高的识别精度,同时具有与 ViT 相当的性能且更简单的架构。
Jun, 2021
通过引入一种新颖的 CNN 模型 ——PatchMixer,我们解决了 Transformer 模型在时间序列预测任务中面临的挑战,该模型具有可以保留时间信息的排列不变自注意力机制。与传统 CNN 不同的是,我们的方法仅依赖于深度可分离卷积,可以在单一尺度的结构中提取局部特征和全局相关性。试验结果表明,与现有最先进的方法和表现最佳的 CNN 相比,PatchMixer 相对提升了分别为 3.9%和 21.2%,而且速度是最先进方法的 2-3 倍。我们将发布我们的代码和模型。
Oct, 2023
本文研究了多层感知机,重点探究了其深化效果和改进方法。其中提出了 MLP-Mixer 与宽 MLP 具有稀疏权重的相关性,并从预测性能优化的角度进行了实验验证。
Jun, 2023
本研究提出了一种通用的点集操作符 PointMixer,通过在多点集之间进行功能混合,提高了针对点云的神经网络的性能,从而在语义分割、分类和点重建等任务中超过了以 Transformer 为基础的方法。
Nov, 2021
本文研究了注意力机制对于自然语言处理和图像识别任务的应用。通过提出一种轻量级的基于 MLP 的多维 MLP 结构,并采用新型的 MLP 注意力工具,我们实现了在小数据集上的从头训练的 SOTA 结果,同时具备出色的解释能力。
May, 2022