维度混合器：深度神经网络中结构稀疏性的通用方法

Nov, 2023

维度混合器：深度神经网络中结构稀疏性的通用方法

Dimension Mixer: A Generalized Method for Structured Sparsity in Deep Neural Networks

Suman Sapkota, Binod Bhattarai

TL;DR研究了多个神经架构之间的相似性和差异性，通过对耦合流与蝴蝶变换的研究，提出了非线性蝴蝶混合器，包括 Butterfly MLP 和 Butterfly Attention，证明了它们在处理不同维度的输入上的高效性和可扩展性。

Abstract

The recent success of multiple neural architectures like CNNs, Transformers, and MLP-Mixers motivated us to look for similarities and differences between them. We found that these architectures can be interpreted through the lens of a general concept of →

neural architectures dimension mixing sparse mixing schemes butterfly mlp butterfly attention

发现论文，激发创造

MLP-Mixer: 一种用于视觉的全 MLP 架构

本文提出了一种基于多层感知器 (MLP) 的架构，MLP-Mixer，它不需要使用卷积和注意力机制，包含两种类型的层，一种将 MLP 应用于图像补丁，一种将 MLP 应用于补丁之间的位置信息，具有与现代 CNN 和 Transformer 相媲美的预训练和推理成本，希望鼓励更多超越 CNN 和 Transformer 的研究。

May, 2021

DynaMixer：一种具有动态混合的视觉 MLP 架构

本文提出了一个称为 Dyn Mixer 的高效 MLP-like 深度学习网络结构，用于动态信息融合，并且通过一个过程生成融合矩阵，以应对 tokens 的内容，并通过采用降维技术和多段融合机制来减少时间复杂度和提高鲁棒性。Dyn Mixer 模型不需要额外的训练数据，在 ImageNet-1K 数据集上达到了 84.3％的准确率，参数数量减少到 26M 时，仍然获得 82.7％的 top-1 准确率，胜过类似容量的现有 MLP-like 模型。

Jan, 2022

CS-Mixer: 一个具有空间 - 通道混合的跨尺度视觉 MLP 模型

提出了一种通过跨尺度的本地和全局聚合学习动态低秩变换以实现空间通道混合的分层视觉 MLP（Vision MLP）方法，该方法在流行的图像识别基准测试中取得了有竞争力的结果。

Aug, 2023

SCHEME：可扩展的视觉变压器通道融合器

研究论文探索了视觉转换器中的特征混合模块，引入了块对角 MLP 结构和通道协方差注意力机制来提高准确性，并展示了该模型在图像分类、目标检测和语义分割等任务上的优越性能。

Dec, 2023

MLP-Mixer 作为一个宽且稀疏的多层感知机

本文研究了多层感知机，重点探究了其深化效果和改进方法。其中提出了 MLP-Mixer 与宽 MLP 具有稀疏权重的相关性，并从预测性能优化的角度进行了实验验证。

Jun, 2023

PatchMixer：重新思考网络设计以提升三维点云理解的泛化性能

本文提出了 PatchMixer 架构，通过处理局部补丁和使用 MLP 聚合补丁特征，将 MLP-Mixer 的思想扩展到 3D 点云中，以提高深度网络架构的泛化性能。

Jul, 2023

SplitMixer: MLP 模型中的脂肪裁剪

SplitMixer 是一个简单且轻量级的 MLP-like 架构，包含用于混合空间位置和通道信息的两种交替卷积操作，理论和实验证明它在准确性，参数数量和速度方面都表现出色。

Jul, 2022

3D Shuffle-Mixer: 一种用于医疗体积稠密预测的 Transformer-MLP 范式的高效上下文感知视觉学习器

研究提出了一种新的 3D Shuffle-Mixer 网络，它采用本地视觉变换器 - MLP 范例，可以更有效地应用于医学成像中的密集预测，获得比其他先进的密集预测方法更好的性能。

Apr, 2022

分层联想记忆、并行化 MLP-Mixer 和对称性破坏

通过将 Krotov 的分层关联记忆与 MetaFormers 相结合，该论文提出了一种新的视角，将整个 Transformer 块的完整表示，包括标记 -/ 通道混合模块、层归一化和跳跃连接，作为一个单一的 Hopfield 网络。该方法产生了一个并行化的从三层 Hopfield 网络推导出的 MLP-Mixer，自然地融合了对称的标记 -/ 通道混合模块和层归一化。实证研究揭示了模型中的对称交互矩阵阻碍了图像识别任务的性能。引入破坏对称效果将对称并行化的 MLP-Mixer 的性能过渡到普通 MLP-Mixer 的性能。这表明在标准训练过程中，普通 MLP-Mixer 的权重矩阵自发地获得对称破缺配置，增强了其有效性。这些发现为 Transformer 和 MLP-Mixer 的内在特性及其理论基础提供了见解，为未来模型设计和优化提供了一个稳健的框架。

Jun, 2024

Paramixer: 在稀疏因子中对混合连接进行参数化优于点积自注意力

该研究提出了一种名为 Paramixer 的新型可伸缩和有效的混合构建模块，在比对其他注意力网络的实验结果中表现更佳，实现了将交互矩阵分解为多个稀疏矩阵的参数化，在输入序列长度为 N 时，其整体计算成本仅为 O (N log N)。

Apr, 2022