视觉置换器：一种类 MLP 的置换架构用于视觉识别

Jun, 2021

视觉置换器：一种类 MLP 的置换架构用于视觉识别

Vision Permutator: A Permutable MLP-Like Architecture for Visual Recognition

Qibin Hou, Zihang Jiang, Li Yuan, Ming-Ming Cheng, Shuicheng Yan...

TL;DR本文提出 Vision Permutator，这是一种类似于 MLP 的架构，用于视觉识别。通过在高度和宽度维度上分别编码特征表示，Vision Permutator 能够捕捉沿一个空间方向的长程依赖关系，同时保留另一个方向上的精确位置信息。在 ImageNet 数据集上，使用仅有 25M 可学习参数的 Vision Permutator 在不使用大规模训练数据（如 ImageNet-22k）的情况下可实现 81.5％的 top-1 准确性，比大多数 CNN 和视觉变换器都要好。

Abstract

In this paper, we present vision permutator, a conceptually simple and data efficient mlp-like architecture for visual recognition. By rea

vision permutator visual recognition positional information mlp-like architecture imagenet

发现论文，激发创造

DeepPermNet: 视觉置换学习

本文提出了一种基于深度学习的任务（visual permutation learning），通过使用 Sinkhorn 迭代生成本质上是连续的双随机矩阵的方法，建立了一个名为 DeepPermNet 的端到端卷积神经网络模型，成功地应用于两个具有挑战性的计算机视觉问题，并在相关数据集上实现了最优化的性能，在深度学习和排列学习领域有着广泛的应用价值。

Apr, 2017

S$^2$-MLPv2: 提升空间 - 移位 MLP 视觉模型架构

本研究致力于改进 S^2-MLP 视觉骨干，将特征图沿通道扩展并将其分成若干部分，然后对分割的部分进行不同的空间变换操作，同时利用分组注意力操作来融合这些分割的部分。采用更小的尺度补丁和金字塔结构提高图像识别的准确性，我们称之为 S^2-MLPv2。中型模型 S^2-MLPv2-Medium 使用 55M 个参数，在没有注意力机制和外部训练数据的情况下在 ImageNet-1K 基准测试中使用 224×224 图像实现了 83.6％的 top-1 准确率。

Aug, 2021

MLP-Mixer: 一种用于视觉的全 MLP 架构

本文提出了一种基于多层感知器 (MLP) 的架构，MLP-Mixer，它不需要使用卷积和注意力机制，包含两种类型的层，一种将 MLP 应用于图像补丁，一种将 MLP 应用于补丁之间的位置信息，具有与现代 CNN 和 Transformer 相媲美的预训练和推理成本，希望鼓励更多超越 CNN 和 Transformer 的研究。

May, 2021

MAXIM：用于图像处理的多轴 MLP

本文介绍了一种基于多轴 MLP 的体系结构 MAXIM，该体系结构可用作图像处理任务的高效和灵活的通用视觉骨干。MAXIM 使用 UNet 形状的分层结构，并支持由空间门控 MLP 启用的长程交互，其在多项基准测试中取得了最先进的性能，并且需要的参数和 FLOP 少于竞争模型。

Jan, 2022

ConvMLP: 视觉 Hierarchical Convolutional MLPs

提出了层次化的卷积 MLP，称其为 ConvMLP，可用于视觉识别、物体检测和语义分割等任务，与 MLP-Mixer-B/16 相比，ConvMLP-S 使用了更少的参数，且在 ImageNet-1k 数据集上具有较高的准确性。

Sep, 2021

通过分层重新排列实现 Hire-MLP: 视觉 MLP

Hire-MLP 是一种通过 Hi-erarchical re-arrangement 获得的简单而有竞争力的视觉 MLP 架构，可作为各种视觉任务的灵活骨干，包括图像分类、目标检测和语义分割任务，超过以前的基于 transformer 和 MLP 模型，在精度和吞吐量方面具有更好的折衷。

Aug, 2021

X-MLP: 一个无需 Patch 嵌入的 MLP 视觉架构

提出一种基于全连接层的 MLP 体系结构 X-MLP，比现有的 MLP 模型和 CNNs 略表现更好，在多个基准数据集上进行了测试，具有捕捉长距离依赖性的特点。

Jul, 2023

Vision Conformer：将卷积融入 Vision Transformer 层中

本研究通过将卷积神经网络与神经网络模型 Transformer 相结合，提出了一种名为 “Vision Conformer” 的模型，并通过实验证明了此模型对 ViT 图像识别能力的提升。

Apr, 2023

Visformer：基于 Transformer 的视觉友好型模型

通过将 Transformer 模型逐步转化为基于卷积的模型，进行经验证实验表明，命名为 Visformer 的新架构比 Transformer 模型和卷积模型在 ImageNet 分类准确性方面表现更佳，尤其是当模型复杂度较低或者训练集较小时。

Apr, 2021

Perceiver-VL: 迭代潜在注意力的高效视觉语言建模

Perceiver-VL 是一个高效处理大量视觉和语言输入的框架，采用迭代潜在跨注意力技术，具有线性可扩展性和高效性，并在保持其竞争力能力的同时，在各种基准测试中取得最佳结果。

Nov, 2022