图像补丁即波浪：相位感知视觉 MLP

CVPRNov, 2021

图像补丁即波浪：相位感知视觉 MLP

An Image Patch is a Wave: Phase-Aware Vision MLP

Yehui Tang, Kai Han, Jianyuan Guo, Chang Xu, Yanxi Li...

TL;DR该研究提出了一种新型的 Wave-MLP 架构，通过引入波浪状的代表图像中各个部分的符号来处理图像的语义信息，继而在图像分类、目标检测和语义分割等领域中展现出卓越的性能。

Abstract

In the field of computer vision, recent works show that a pure MLP architecture mainly stacked by fully-connected layers can achieve competing performance with CNN and transformer. An input image of vision MLP is usually split into multiple tokens (patches), while the existing MLP mode

computer vision mlp architecture wave-mlp semantic information vision tasks

发现论文，激发创造

X-MLP: 一个无需 Patch 嵌入的 MLP 视觉架构

提出一种基于全连接层的 MLP 体系结构 X-MLP，比现有的 MLP 模型和 CNNs 略表现更好，在多个基准数据集上进行了测试，具有捕捉长距离依赖性的特点。

Jul, 2023

MLP-Mixer: 一种用于视觉的全 MLP 架构

本文提出了一种基于多层感知器 (MLP) 的架构，MLP-Mixer，它不需要使用卷积和注意力机制，包含两种类型的层，一种将 MLP 应用于图像补丁，一种将 MLP 应用于补丁之间的位置信息，具有与现代 CNN 和 Transformer 相媲美的预训练和推理成本，希望鼓励更多超越 CNN 和 Transformer 的研究。

May, 2021

补丁是你所需的全部？

本文介绍 ConvMixer 模型，它使用标准卷积来混合图像块，并在类似参数计数和数据集大小的情况下胜过 ViT、MLP-Mixer 和一些变种，同时也优于经典的 ResNet 等视觉模型。

Jan, 2022

S$^2$-MLP: 视觉任务空间平移 MLP 架构

本文提出一种新颖的 MLP 架构，空间平移 MLP (S$^2$-MLP)，只包含通道混合 MLP，利用局部接收场进行补丁之间的通信，其参数自由且计算效率高，比 MLP-Mixer 在 ImageNet-1K 数据集上获得更高的识别精度，同时具有与 ViT 相当的性能且更简单的架构。

Jun, 2021

PatchMixer：重新思考网络设计以提升三维点云理解的泛化性能

本文提出了 PatchMixer 架构，通过处理局部补丁和使用 MLP 聚合补丁特征，将 MLP-Mixer 的思想扩展到 3D 点云中，以提高深度网络架构的泛化性能。

Jul, 2023

WaveMix: 图像资源高效的 Token 混合

WaveMix 是一种采用多尺度 2D 离散小波变换 (DWT) 进行空间令牌混合的替代神经架构，与卷积神经网络 (CNNs) 和 ViTs 相比，在多个数据集上表现出了与它们相当甚至更好的泛化性同时需要更少的计算和存储

Mar, 2022

DynaMixer：一种具有动态混合的视觉 MLP 架构

本文提出了一个称为 Dyn Mixer 的高效 MLP-like 深度学习网络结构，用于动态信息融合，并且通过一个过程生成融合矩阵，以应对 tokens 的内容，并通过采用降维技术和多段融合机制来减少时间复杂度和提高鲁棒性。Dyn Mixer 模型不需要额外的训练数据，在 ImageNet-1K 数据集上达到了 84.3％的准确率，参数数量减少到 26M 时，仍然获得 82.7％的 top-1 准确率，胜过类似容量的现有 MLP-like 模型。

Jan, 2022

我们为新的范式转变做好准备了吗？对视觉 Deep MLP 的调查

本文综述了深度 MLP 模型在计算机视觉领域中的应用，从卷积、自注意力机制以及 Token-mixing MLP 的内在联系和区别进行了详细比较，分析了 MLP 变种的优缺点和应用，并提出了下一代计算设备和方法的发展方向。

Nov, 2021

混合分辨率令牌化的视觉 Transformer

本文介绍了一种新的图像标记方案 —— 混合分辨率标记 —— 以及如何使用 Quadtree 算法和新的显著性评分器构建图像的代表通量，进而实现更好的图像分类。

Apr, 2023

一张图像胜过 16x16 贴片：研究基于单个像素的 Transformer 模型

本研究发现在计算机视觉体系结构中的归纳偏置 —— 局部性的必要性存在疑问，可以通过直接将每个像素视为标记并获得高性能结果来展示像素作为标记的有效性。

Jun, 2024