图像补丁即波浪:相位感知视觉 MLP
提出一种基于全连接层的 MLP 体系结构 X-MLP,比现有的 MLP 模型和 CNNs 略表现更好,在多个基准数据集上进行了测试,具有捕捉长距离依赖性的特点。
Jul, 2023
本文提出了一种基于多层感知器 (MLP) 的架构,MLP-Mixer,它不需要使用卷积和注意力机制,包含两种类型的层,一种将 MLP 应用于图像补丁,一种将 MLP 应用于补丁之间的位置信息,具有与现代 CNN 和 Transformer 相媲美的预训练和推理成本,希望鼓励更多超越 CNN 和 Transformer 的研究。
May, 2021
本文介绍 ConvMixer 模型,它使用标准卷积来混合图像块,并在类似参数计数和数据集大小的情况下胜过 ViT、MLP-Mixer 和一些变种,同时也优于经典的 ResNet 等视觉模型。
Jan, 2022
本文提出一种新颖的 MLP 架构,空间平移 MLP (S$^2$-MLP),只包含通道混合 MLP,利用局部接收场进行补丁之间的通信,其参数自由且计算效率高,比 MLP-Mixer 在 ImageNet-1K 数据集上获得更高的识别精度,同时具有与 ViT 相当的性能且更简单的架构。
Jun, 2021
本文提出了 PatchMixer 架构,通过处理局部补丁和使用 MLP 聚合补丁特征,将 MLP-Mixer 的思想扩展到 3D 点云中,以提高深度网络架构的泛化性能。
Jul, 2023
WaveMix 是一种采用多尺度 2D 离散小波变换 (DWT) 进行空间令牌混合的替代神经架构,与卷积神经网络 (CNNs) 和 ViTs 相比,在多个数据集上表现出了与它们相当甚至更好的泛化性同时需要更少的计算和存储
Mar, 2022
本文提出了一个称为 Dyn Mixer 的高效 MLP-like 深度学习网络结构,用于动态信息融合,并且通过一个过程生成融合矩阵,以应对 tokens 的内容,并通过采用降维技术和多段融合机制来减少时间复杂度和提高鲁棒性。Dyn Mixer 模型不需要额外的训练数据,在 ImageNet-1K 数据集上达到了 84.3%的准确率,参数数量减少到 26M 时,仍然获得 82.7%的 top-1 准确率,胜过类似容量的现有 MLP-like 模型。
Jan, 2022
本文综述了深度 MLP 模型在计算机视觉领域中的应用,从卷积、自注意力机制以及 Token-mixing MLP 的内在联系和区别进行了详细比较,分析了 MLP 变种的优缺点和应用,并提出了下一代计算设备和方法的发展方向。
Nov, 2021
本文介绍了一种新的图像标记方案 —— 混合分辨率标记 —— 以及如何使用 Quadtree 算法和新的显著性评分器构建图像的代表通量,进而实现更好的图像分类。
Apr, 2023
本研究发现在计算机视觉体系结构中的归纳偏置 —— 局部性的必要性存在疑问,可以通过直接将每个像素视为标记并获得高性能结果来展示像素作为标记的有效性。
Jun, 2024