X-MLP: 一个无需 Patch 嵌入的 MLP 视觉架构

Jul, 2023

X-MLP: 一个无需 Patch 嵌入的 MLP 视觉架构

X-MLP: A Patch Embedding-Free MLP Architecture for Vision

Xinyue Wang, Zhicheng Cai, Chenglei Peng

TL;DR提出一种基于全连接层的 MLP 体系结构 X-MLP，比现有的 MLP 模型和 CNNs 略表现更好，在多个基准数据集上进行了测试，具有捕捉长距离依赖性的特点。

Abstract

convolutional neural networks (CNNs) and vision transformers (ViT) have obtained great achievements in computer vision. Recently, the research of

convolutional neural networks vision transformers multi-layer perceptron x-mlp long-range dependency

发现论文，激发创造

MLP-Mixer: 一种用于视觉的全 MLP 架构

本文提出了一种基于多层感知器 (MLP) 的架构，MLP-Mixer，它不需要使用卷积和注意力机制，包含两种类型的层，一种将 MLP 应用于图像补丁，一种将 MLP 应用于补丁之间的位置信息，具有与现代 CNN 和 Transformer 相媲美的预训练和推理成本，希望鼓励更多超越 CNN 和 Transformer 的研究。

May, 2021

ConvMLP: 视觉 Hierarchical Convolutional MLPs

提出了层次化的卷积 MLP，称其为 ConvMLP，可用于视觉识别、物体检测和语义分割等任务，与 MLP-Mixer-B/16 相比，ConvMLP-S 使用了更少的参数，且在 ImageNet-1k 数据集上具有较高的准确性。

Sep, 2021

补丁是你所需的全部？

本文介绍 ConvMixer 模型，它使用标准卷积来混合图像块，并在类似参数计数和数据集大小的情况下胜过 ViT、MLP-Mixer 和一些变种，同时也优于经典的 ResNet 等视觉模型。

Jan, 2022

图像补丁即波浪：相位感知视觉 MLP

该研究提出了一种新型的 Wave-MLP 架构，通过引入波浪状的代表图像中各个部分的符号来处理图像的语义信息，继而在图像分类、目标检测和语义分割等领域中展现出卓越的性能。

Nov, 2021

MDMLP: 使用 MLP 在小数据集上从零开始进行图像分类

本文研究了注意力机制对于自然语言处理和图像识别任务的应用。通过提出一种轻量级的基于 MLP 的多维 MLP 结构，并采用新型的 MLP 注意力工具，我们实现了在小数据集上的从头训练的 SOTA 结果，同时具备出色的解释能力。

May, 2022

S$^2$-MLP: 视觉任务空间平移 MLP 架构

本文提出一种新颖的 MLP 架构，空间平移 MLP (S$^2$-MLP)，只包含通道混合 MLP，利用局部接收场进行补丁之间的通信，其参数自由且计算效率高，比 MLP-Mixer 在 ImageNet-1K 数据集上获得更高的识别精度，同时具有与 ViT 相当的性能且更简单的架构。

Jun, 2021

MAXIM：用于图像处理的多轴 MLP

本文介绍了一种基于多轴 MLP 的体系结构 MAXIM，该体系结构可用作图像处理任务的高效和灵活的通用视觉骨干。MAXIM 使用 UNet 形状的分层结构，并支持由空间门控 MLP 启用的长程交互，其在多项基准测试中取得了最先进的性能，并且需要的参数和 FLOP 少于竞争模型。

Jan, 2022

通过分层重新排列实现 Hire-MLP: 视觉 MLP

Hire-MLP 是一种通过 Hi-erarchical re-arrangement 获得的简单而有竞争力的视觉 MLP 架构，可作为各种视觉任务的灵活骨干，包括图像分类、目标检测和语义分割任务，超过以前的基于 transformer 和 MLP 模型，在精度和吞吐量方面具有更好的折衷。

Aug, 2021

S$^2$-MLPv2: 提升空间 - 移位 MLP 视觉模型架构

本研究致力于改进 S^2-MLP 视觉骨干，将特征图沿通道扩展并将其分成若干部分，然后对分割的部分进行不同的空间变换操作，同时利用分组注意力操作来融合这些分割的部分。采用更小的尺度补丁和金字塔结构提高图像识别的准确性，我们称之为 S^2-MLPv2。中型模型 S^2-MLPv2-Medium 使用 55M 个参数，在没有注意力机制和外部训练数据的情况下在 ImageNet-1K 基准测试中使用 224×224 图像实现了 83.6％的 top-1 准确率。

Aug, 2021

关注多层感知器

本文提出了一种基于 MLP 的简单网络架构 gMLP，与 Transformer 一样，在关键的自然语言处理和计算机视觉应用中表现不亚于 Transformer。同时，作者进行比较表明，自注意力（self-attention）不是视觉 Transformer 的关键，因为 gMLP 可以实现相同的准确性。}

May, 2021