利用毛毛虫对小尺度图像进行采样

May, 2023

利用毛毛虫对小尺度图像进行采样

Using Caterpillar to Nibble Small-Scale Images

Jin Sun, Xiaoshuang Shi, Zhiyuan Weng, Kaidi Xu, Heng Tao Shen...

TL;DR提出一种新的基于多层感知器（MLP）的网络，名为 Caterpillar，通过提出 Shifted-Pillars-Concatenation (SPC) 关键模块来利用局部感应偏置来解决 MLP 在小尺度图像上的应用问题，并在小规模数据集上展示出强大的可扩展性和卓越的表现，以及在 ImageNet-1K 上和最新的最佳方法相比具有竞争性的表现。

Abstract

Recently, mlp-based models have become popular and attained significant performance on medium-scale datasets (e.g., ImageNet-1k). However, their direct applications to small-scale images remain limited. To address this issue, we design a new MLP-based network, namely →

mlp-based models caterpillar shifted-pillars-concatenation locality small-scale datasets

发现论文，激发创造

S$^2$-MLPv2: 提升空间 - 移位 MLP 视觉模型架构

本研究致力于改进 S^2-MLP 视觉骨干，将特征图沿通道扩展并将其分成若干部分，然后对分割的部分进行不同的空间变换操作，同时利用分组注意力操作来融合这些分割的部分。采用更小的尺度补丁和金字塔结构提高图像识别的准确性，我们称之为 S^2-MLPv2。中型模型 S^2-MLPv2-Medium 使用 55M 个参数，在没有注意力机制和外部训练数据的情况下在 ImageNet-1K 基准测试中使用 224×224 图像实现了 83.6％的 top-1 准确率。

Aug, 2021

MDMLP: 使用 MLP 在小数据集上从零开始进行图像分类

本文研究了注意力机制对于自然语言处理和图像识别任务的应用。通过提出一种轻量级的基于 MLP 的多维 MLP 结构，并采用新型的 MLP 注意力工具，我们实现了在小数据集上的从头训练的 SOTA 结果，同时具备出色的解释能力。

May, 2022

像素蝴蝶：稀疏训练神经网络模型的简单高效方法

该研究提出了一种名为 Pixelated Butterfly 的稀疏模型训练方法，通过优化连续超集上的蝶式矩阵，采用简单的蝶式块和低秩矩阵稀疏化网络层，使训练速度提高 3 倍，并在 ImageNet 分类和 WikiText-103 语言建模任务中，使稀疏模型的训练速度比密集的 MLP-Mixer、Vision Transformer 和 GPT-2 medium 提高了 2.5 倍，而且精确度并未下降

Nov, 2021

S$^2$-MLP: 视觉任务空间平移 MLP 架构

本文提出一种新颖的 MLP 架构，空间平移 MLP (S$^2$-MLP)，只包含通道混合 MLP，利用局部接收场进行补丁之间的通信，其参数自由且计算效率高，比 MLP-Mixer 在 ImageNet-1K 数据集上获得更高的识别精度，同时具有与 ViT 相当的性能且更简单的架构。

Jun, 2021

MAXIM：用于图像处理的多轴 MLP

本文介绍了一种基于多轴 MLP 的体系结构 MAXIM，该体系结构可用作图像处理任务的高效和灵活的通用视觉骨干。MAXIM 使用 UNet 形状的分层结构，并支持由空间门控 MLP 启用的长程交互，其在多项基准测试中取得了最先进的性能，并且需要的参数和 FLOP 少于竞争模型。

Jan, 2022

网络结构之战：CNN、Transformer 和 MLP 的实证研究

本文比较了卷积神经网络、Transformer、multi-layer perceptron 等算法的优劣，并在 SPACH 框架下进行了实验，结果显示，使用卷积和 Transformer 模块的混合模型已经能够实现与其他模型相同的准确率。

Aug, 2021

仅需简单卷积移位：设计高效的卷积神经网络用于图像分类

本文介绍了一种基于 Sparse Shift Layer（SSL）的卷积神经网络构建方法，最终构建出只有 1x1 卷积层和少量位移操作的网络结构，通过优化和量化学习方法实现了极高的准确率和实用速度。

Mar, 2019

ConvMLP: 视觉 Hierarchical Convolutional MLPs

提出了层次化的卷积 MLP，称其为 ConvMLP，可用于视觉识别、物体检测和语义分割等任务，与 MLP-Mixer-B/16 相比，ConvMLP-S 使用了更少的参数，且在 ImageNet-1k 数据集上具有较高的准确性。

Sep, 2021

MLP-Mixer: 一种用于视觉的全 MLP 架构

本文提出了一种基于多层感知器 (MLP) 的架构，MLP-Mixer，它不需要使用卷积和注意力机制，包含两种类型的层，一种将 MLP 应用于图像补丁，一种将 MLP 应用于补丁之间的位置信息，具有与现代 CNN 和 Transformer 相媲美的预训练和推理成本，希望鼓励更多超越 CNN 和 Transformer 的研究。

May, 2021

利用注意力机制进行基于补丁的生物医学图像分类

医学图像分析可以通过一种扎根于自注意机制的创新架构得到促进。传统的卷积神经网络（CNN）在捕捉像素级复杂空间和时间关系时需要帮助，而其卷积窗口的固定大小限制了输入波动。为了克服这些限制，我们提出了基于注意力模型而非卷积的新范式。这些模型作为传统 CNN 的替代品，表现出强大的建模能力和高效获取全局长范围上下文信息的能力。通过将非重叠（vanilla patching）和新颖的重叠移位补丁技术（S.P.T.s）相结合，我们的工作提供了一种解决注意力视觉模型所面临的关键挑战的方法，包括归纳偏差、权重共享、感受野限制和高分辨率数据处理。此外，我们还研究了适应不同图像尺寸到更高分辨率的新颖 Lancoz5 插值技术。实验证据验证了我们模型的一般化效果，并与现有方法进行了有利比较。特别是在充足数据的情况下，基于注意力的方法特别有效，尤其是在集成先进的数据增强方法来增强它们的鲁棒性时。

Apr, 2024