SCHEME:可扩展的视觉变压器通道融合器
提出了一种通过跨尺度的本地和全局聚合学习动态低秩变换以实现空间通道混合的分层视觉 MLP(Vision MLP)方法,该方法在流行的图像识别基准测试中取得了有竞争力的结果。
Aug, 2023
研究了多个神经架构之间的相似性和差异性,通过对耦合流与蝴蝶变换的研究,提出了非线性蝴蝶混合器,包括 Butterfly MLP 和 Butterfly Attention,证明了它们在处理不同维度的输入上的高效性和可扩展性。
Nov, 2023
本文提出一种新颖的 MLP 架构,空间平移 MLP (S$^2$-MLP),只包含通道混合 MLP,利用局部接收场进行补丁之间的通信,其参数自由且计算效率高,比 MLP-Mixer 在 ImageNet-1K 数据集上获得更高的识别精度,同时具有与 ViT 相当的性能且更简单的架构。
Jun, 2021
我们提出了一个简单的附加注意力模块,通过多阶段和跨尺度的相互作用,克服了 CNN 和 ViTs 在视觉任务中相互特征图之间的互动不足,从而显着提高了性能。
Aug, 2023
本文介绍 ConvMixer 模型,它使用标准卷积来混合图像块,并在类似参数计数和数据集大小的情况下胜过 ViT、MLP-Mixer 和一些变种,同时也优于经典的 ResNet 等视觉模型。
Jan, 2022
本文提出了一种基于多层感知器 (MLP) 的架构,MLP-Mixer,它不需要使用卷积和注意力机制,包含两种类型的层,一种将 MLP 应用于图像补丁,一种将 MLP 应用于补丁之间的位置信息,具有与现代 CNN 和 Transformer 相媲美的预训练和推理成本,希望鼓励更多超越 CNN 和 Transformer 的研究。
May, 2021
该论文介绍了一种用于减少计算负担的新的计算模块,通过替换标准的注意力层为具有动态学习元素级门控函数的网络结构,增强了 MLP Mixer 的静态方法,从而在图像分类任务中比基准架构表现更好。
Mar, 2024
通过将 Krotov 的分层关联记忆与 MetaFormers 相结合,该论文提出了一种新的视角,将整个 Transformer 块的完整表示,包括标记 -/ 通道混合模块、层归一化和跳跃连接,作为一个单一的 Hopfield 网络。该方法产生了一个并行化的从三层 Hopfield 网络推导出的 MLP-Mixer,自然地融合了对称的标记 -/ 通道混合模块和层归一化。实证研究揭示了模型中的对称交互矩阵阻碍了图像识别任务的性能。引入破坏对称效果将对称并行化的 MLP-Mixer 的性能过渡到普通 MLP-Mixer 的性能。这表明在标准训练过程中,普通 MLP-Mixer 的权重矩阵自发地获得对称破缺配置,增强了其有效性。这些发现为 Transformer 和 MLP-Mixer 的内在特性及其理论基础提供了见解,为未来模型设计和优化提供了一个稳健的框架。
Jun, 2024
本文研究了注意力机制对于自然语言处理和图像识别任务的应用。通过提出一种轻量级的基于 MLP 的多维 MLP 结构,并采用新型的 MLP 注意力工具,我们实现了在小数据集上的从头训练的 SOTA 结果,同时具备出色的解释能力。
May, 2022
研究提出了一种新的 3D Shuffle-Mixer 网络,它采用本地视觉变换器 - MLP 范例,可以更有效地应用于医学成像中的密集预测,获得比其他先进的密集预测方法更好的性能。
Apr, 2022