维度混合器:深度神经网络中结构稀疏性的通用方法
本文提出了一种基于多层感知器 (MLP) 的架构,MLP-Mixer,它不需要使用卷积和注意力机制,包含两种类型的层,一种将 MLP 应用于图像补丁,一种将 MLP 应用于补丁之间的位置信息,具有与现代 CNN 和 Transformer 相媲美的预训练和推理成本,希望鼓励更多超越 CNN 和 Transformer 的研究。
May, 2021
本文提出了一个称为 Dyn Mixer 的高效 MLP-like 深度学习网络结构,用于动态信息融合,并且通过一个过程生成融合矩阵,以应对 tokens 的内容,并通过采用降维技术和多段融合机制来减少时间复杂度和提高鲁棒性。Dyn Mixer 模型不需要额外的训练数据,在 ImageNet-1K 数据集上达到了 84.3%的准确率,参数数量减少到 26M 时,仍然获得 82.7%的 top-1 准确率,胜过类似容量的现有 MLP-like 模型。
Jan, 2022
提出了一种通过跨尺度的本地和全局聚合学习动态低秩变换以实现空间通道混合的分层视觉 MLP(Vision MLP)方法,该方法在流行的图像识别基准测试中取得了有竞争力的结果。
Aug, 2023
研究论文探索了视觉转换器中的特征混合模块,引入了块对角 MLP 结构和通道协方差注意力机制来提高准确性,并展示了该模型在图像分类、目标检测和语义分割等任务上的优越性能。
Dec, 2023
本文研究了多层感知机,重点探究了其深化效果和改进方法。其中提出了 MLP-Mixer 与宽 MLP 具有稀疏权重的相关性,并从预测性能优化的角度进行了实验验证。
Jun, 2023
本文提出了 PatchMixer 架构,通过处理局部补丁和使用 MLP 聚合补丁特征,将 MLP-Mixer 的思想扩展到 3D 点云中,以提高深度网络架构的泛化性能。
Jul, 2023
SplitMixer 是一个简单且轻量级的 MLP-like 架构,包含用于混合空间位置和通道信息的两种交替卷积操作,理论和实验证明它在准确性,参数数量和速度方面都表现出色。
Jul, 2022
研究提出了一种新的 3D Shuffle-Mixer 网络,它采用本地视觉变换器 - MLP 范例,可以更有效地应用于医学成像中的密集预测,获得比其他先进的密集预测方法更好的性能。
Apr, 2022
通过将 Krotov 的分层关联记忆与 MetaFormers 相结合,该论文提出了一种新的视角,将整个 Transformer 块的完整表示,包括标记 -/ 通道混合模块、层归一化和跳跃连接,作为一个单一的 Hopfield 网络。该方法产生了一个并行化的从三层 Hopfield 网络推导出的 MLP-Mixer,自然地融合了对称的标记 -/ 通道混合模块和层归一化。实证研究揭示了模型中的对称交互矩阵阻碍了图像识别任务的性能。引入破坏对称效果将对称并行化的 MLP-Mixer 的性能过渡到普通 MLP-Mixer 的性能。这表明在标准训练过程中,普通 MLP-Mixer 的权重矩阵自发地获得对称破缺配置,增强了其有效性。这些发现为 Transformer 和 MLP-Mixer 的内在特性及其理论基础提供了见解,为未来模型设计和优化提供了一个稳健的框架。
Jun, 2024
该研究提出了一种名为 Paramixer 的新型可伸缩和有效的混合构建模块,在比对其他注意力网络的实验结果中表现更佳,实现了将交互矩阵分解为多个稀疏矩阵的参数化,在输入序列长度为 N 时,其整体计算成本仅为 O (N log N)。
Apr, 2022