SCHEME：可扩展的视觉变压器通道融合器

Dec, 2023

SCHEME：可扩展的视觉变压器通道融合器

SCHEME: Scalable Channer Mixer for Vision Transformers

Deepak Sridhar, Yunsheng Li, Nuno Vasconcelos

TL;DR研究论文探索了视觉转换器中的特征混合模块，引入了块对角 MLP 结构和通道协方差注意力机制来提高准确性，并展示了该模型在图像分类、目标检测和语义分割等任务上的优越性能。

Abstract

vision transformers have received significant attention due to their impressive performance in many vision tasks. While the token mixer or attention block has been studied in great detail, the channel mixer or feature mixing block (FFN or MLP) has not been explored in depth albeit it a

vision transformers feature mixing block block diagonal mlp structure channel covariance attention (cca)schemeformer models

发现论文，激发创造

CS-Mixer: 一个具有空间 - 通道混合的跨尺度视觉 MLP 模型

提出了一种通过跨尺度的本地和全局聚合学习动态低秩变换以实现空间通道混合的分层视觉 MLP（Vision MLP）方法，该方法在流行的图像识别基准测试中取得了有竞争力的结果。

Aug, 2023

维度混合器：深度神经网络中结构稀疏性的通用方法

研究了多个神经架构之间的相似性和差异性，通过对耦合流与蝴蝶变换的研究，提出了非线性蝴蝶混合器，包括 Butterfly MLP 和 Butterfly Attention，证明了它们在处理不同维度的输入上的高效性和可扩展性。

Nov, 2023

S$^2$-MLP: 视觉任务空间平移 MLP 架构

本文提出一种新颖的 MLP 架构，空间平移 MLP (S$^2$-MLP)，只包含通道混合 MLP，利用局部接收场进行补丁之间的通信，其参数自由且计算效率高，比 MLP-Mixer 在 ImageNet-1K 数据集上获得更高的识别精度，同时具有与 ViT 相当的性能且更简单的架构。

Jun, 2021

多阶段跨尺度注意力的视觉骨干增强

我们提出了一个简单的附加注意力模块，通过多阶段和跨尺度的相互作用，克服了 CNN 和 ViTs 在视觉任务中相互特征图之间的互动不足，从而显着提高了性能。

Aug, 2023

补丁是你所需的全部？

本文介绍 ConvMixer 模型，它使用标准卷积来混合图像块，并在类似参数计数和数据集大小的情况下胜过 ViT、MLP-Mixer 和一些变种，同时也优于经典的 ResNet 等视觉模型。

Jan, 2022

MLP-Mixer: 一种用于视觉的全 MLP 架构

本文提出了一种基于多层感知器 (MLP) 的架构，MLP-Mixer，它不需要使用卷积和注意力机制，包含两种类型的层，一种将 MLP 应用于图像补丁，一种将 MLP 应用于补丁之间的位置信息，具有与现代 CNN 和 Transformer 相媲美的预训练和推理成本，希望鼓励更多超越 CNN 和 Transformer 的研究。

May, 2021

NiNformer：一种带有令牌混合生成门控函数的网络中网络 Transformer

该论文介绍了一种用于减少计算负担的新的计算模块，通过替换标准的注意力层为具有动态学习元素级门控函数的网络结构，增强了 MLP Mixer 的静态方法，从而在图像分类任务中比基准架构表现更好。

Mar, 2024

分层联想记忆、并行化 MLP-Mixer 和对称性破坏

通过将 Krotov 的分层关联记忆与 MetaFormers 相结合，该论文提出了一种新的视角，将整个 Transformer 块的完整表示，包括标记 -/ 通道混合模块、层归一化和跳跃连接，作为一个单一的 Hopfield 网络。该方法产生了一个并行化的从三层 Hopfield 网络推导出的 MLP-Mixer，自然地融合了对称的标记 -/ 通道混合模块和层归一化。实证研究揭示了模型中的对称交互矩阵阻碍了图像识别任务的性能。引入破坏对称效果将对称并行化的 MLP-Mixer 的性能过渡到普通 MLP-Mixer 的性能。这表明在标准训练过程中，普通 MLP-Mixer 的权重矩阵自发地获得对称破缺配置，增强了其有效性。这些发现为 Transformer 和 MLP-Mixer 的内在特性及其理论基础提供了见解，为未来模型设计和优化提供了一个稳健的框架。

Jun, 2024

MDMLP: 使用 MLP 在小数据集上从零开始进行图像分类

本文研究了注意力机制对于自然语言处理和图像识别任务的应用。通过提出一种轻量级的基于 MLP 的多维 MLP 结构，并采用新型的 MLP 注意力工具，我们实现了在小数据集上的从头训练的 SOTA 结果，同时具备出色的解释能力。

May, 2022

3D Shuffle-Mixer: 一种用于医疗体积稠密预测的 Transformer-MLP 范式的高效上下文感知视觉学习器

研究提出了一种新的 3D Shuffle-Mixer 网络，它采用本地视觉变换器 - MLP 范例，可以更有效地应用于医学成像中的密集预测，获得比其他先进的密集预测方法更好的性能。

Apr, 2022