利用毛毛虫对小尺度图像进行采样
本研究致力于改进 S^2-MLP 视觉骨干,将特征图沿通道扩展并将其分成若干部分,然后对分割的部分进行不同的空间变换操作,同时利用分组注意力操作来融合这些分割的部分。采用更小的尺度补丁和金字塔结构提高图像识别的准确性,我们称之为 S^2-MLPv2。中型模型 S^2-MLPv2-Medium 使用 55M 个参数,在没有注意力机制和外部训练数据的情况下在 ImageNet-1K 基准测试中使用 224×224 图像实现了 83.6%的 top-1 准确率。
Aug, 2021
本文研究了注意力机制对于自然语言处理和图像识别任务的应用。通过提出一种轻量级的基于 MLP 的多维 MLP 结构,并采用新型的 MLP 注意力工具,我们实现了在小数据集上的从头训练的 SOTA 结果,同时具备出色的解释能力。
May, 2022
该研究提出了一种名为 Pixelated Butterfly 的稀疏模型训练方法,通过优化连续超集上的蝶式矩阵,采用简单的蝶式块和低秩矩阵稀疏化网络层,使训练速度提高 3 倍,并在 ImageNet 分类和 WikiText-103 语言建模任务中,使稀疏模型的训练速度比密集的 MLP-Mixer、Vision Transformer 和 GPT-2 medium 提高了 2.5 倍,而且精确度并未下降
Nov, 2021
本文提出一种新颖的 MLP 架构,空间平移 MLP (S$^2$-MLP),只包含通道混合 MLP,利用局部接收场进行补丁之间的通信,其参数自由且计算效率高,比 MLP-Mixer 在 ImageNet-1K 数据集上获得更高的识别精度,同时具有与 ViT 相当的性能且更简单的架构。
Jun, 2021
本文介绍了一种基于多轴 MLP 的体系结构 MAXIM,该体系结构可用作图像处理任务的高效和灵活的通用视觉骨干。MAXIM 使用 UNet 形状的分层结构,并支持由空间门控 MLP 启用的长程交互,其在多项基准测试中取得了最先进的性能,并且需要的参数和 FLOP 少于竞争模型。
Jan, 2022
本文比较了卷积神经网络、Transformer、multi-layer perceptron 等算法的优劣,并在 SPACH 框架下进行了实验,结果显示,使用卷积和 Transformer 模块的混合模型已经能够实现与其他模型相同的准确率。
Aug, 2021
本文介绍了一种基于 Sparse Shift Layer(SSL)的卷积神经网络构建方法,最终构建出只有 1x1 卷积层和少量位移操作的网络结构,通过优化和量化学习方法实现了极高的准确率和实用速度。
Mar, 2019
提出了层次化的卷积 MLP,称其为 ConvMLP,可用于视觉识别、物体检测和语义分割等任务,与 MLP-Mixer-B/16 相比,ConvMLP-S 使用了更少的参数,且在 ImageNet-1k 数据集上具有较高的准确性。
Sep, 2021
本文提出了一种基于多层感知器 (MLP) 的架构,MLP-Mixer,它不需要使用卷积和注意力机制,包含两种类型的层,一种将 MLP 应用于图像补丁,一种将 MLP 应用于补丁之间的位置信息,具有与现代 CNN 和 Transformer 相媲美的预训练和推理成本,希望鼓励更多超越 CNN 和 Transformer 的研究。
May, 2021
医学图像分析可以通过一种扎根于自注意机制的创新架构得到促进。传统的卷积神经网络(CNN)在捕捉像素级复杂空间和时间关系时需要帮助,而其卷积窗口的固定大小限制了输入波动。为了克服这些限制,我们提出了基于注意力模型而非卷积的新范式。这些模型作为传统 CNN 的替代品,表现出强大的建模能力和高效获取全局长范围上下文信息的能力。通过将非重叠(vanilla patching)和新颖的重叠移位补丁技术(S.P.T.s)相结合,我们的工作提供了一种解决注意力视觉模型所面临的关键挑战的方法,包括归纳偏差、权重共享、感受野限制和高分辨率数据处理。此外,我们还研究了适应不同图像尺寸到更高分辨率的新颖 Lancoz5 插值技术。实验证据验证了我们模型的一般化效果,并与现有方法进行了有利比较。特别是在充足数据的情况下,基于注意力的方法特别有效,尤其是在集成先进的数据增强方法来增强它们的鲁棒性时。
Apr, 2024