2-D SSM：用于视觉 Transformer 的通用空间层

Jun, 2023

2-D SSM：用于视觉 Transformer 的通用空间层

2-D SSM: A General Spatial Layer for Visual Transformers

Ethan Baron, Itamar Zimerman, Lior Wolf

TL;DR该研究旨在设计拥有适当 2D 归纳偏倚的计算机视觉模型。通过引入一种多维状态空间模型（SSM）的表现形式，这种方法有效地促进了 Vision Transformers（ViT）的性能。ViT 的新层引入了高效参数化，加速计算和合适的归一化方案，提供了强健的 2D 归纳偏倚特征，甚至即使在添加了轻微量的附加参数和推理时间的情况下仍然有效。

Abstract

A central objective in computer vision is to design models with appropriate 2-D inductive bias. Desiderata for 2d inductive bias include two-dimensional position awareness, dynamic spatial locality, and translati

computer vision 2d inductive bias state space model transformer block vit

发现论文，激发创造

高效的图像去模糊视觉状态空间模型

本文提出了一种简单而有效的视觉状态空间模型（EVSSM）用于图像去模糊，在图像恢复任务中，相比卷积神经网络（CNNs）和视觉 Transformer（ViTs），EVSSM 相对于其它方法在基准数据集和真实捕捉的图像上表现出色。

May, 2024

用于新一代网络替代 Transformer 的状态空间模型：概述

在这篇论文中，我们首次全面回顾了 State Space Model（SSM）作为自注意力基础的 Transformer 模型的特性和优势，并提供了实验比较和分析。此外，我们还研究了 SSM 在自然语言处理和计算机视觉等多个领域的应用，并提出了未来研究的方向，希望能推动 SSM 在理论模型和应用方面的发展。

Apr, 2024

变压器是 SSM：通过结构化状态空间对偶实现的广义模型和高效算法

Transformers 与 state-space models（包括 Mamba）存在相关性，通过结构化半可分矩阵的各种分解，我们开发了一个理论连接的丰富框架，证明了这些模型家族之间的联系。基于我们的 state space duality（SSD）框架，我们设计了一种新的架构（Mamba-2），其核心层是 Mamba 的选择性 SSM 的改进，速度提高了 2-8 倍，同时继续与 Transformers 在语言建模方面竞争。

May, 2024

块状态变换器

本文介绍了一种名为 Block-State Transformer (BST) 的混合层，它在内部组合了用于长距离上下文建模的 SSM 子层和用于序列的短期表示的 Block Transformer 子层，并研究了三种完全可并行化的 SSM 和块状注意力的集成变体。我们证明了我们的模型在语言模型困惑度上胜过类似的基于 Transformer 的架构，并可以推广到更长的序列。另外，Block-State Transformer 在模型并行化时的层级速度比 Block-Recurrent Transformer 快了十倍以上。

Jun, 2023

状态空间模型中的状态幻觉

通过对比转换器架构的普遍存在的理论弱点，我们的分析揭示了状态空间模型在状态跟踪方面与转换器非常相似的表达能力的限制，这可能从根本上限制了它们解决现实世界状态跟踪问题的能力。

Apr, 2024

S$^2$-MLPv2: 提升空间 - 移位 MLP 视觉模型架构

本研究致力于改进 S^2-MLP 视觉骨干，将特征图沿通道扩展并将其分成若干部分，然后对分割的部分进行不同的空间变换操作，同时利用分组注意力操作来融合这些分割的部分。采用更小的尺度补丁和金字塔结构提高图像识别的准确性，我们称之为 S^2-MLPv2。中型模型 S^2-MLPv2-Medium 使用 55M 个参数，在没有注意力机制和外部训练数据的情况下在 ImageNet-1K 基准测试中使用 224×224 图像实现了 83.6％的 top-1 准确率。

Aug, 2021

槽位状态空间模型

我们介绍了一种新颖的框架 SlotSSMs，用于在状态空间模型中引入独立机制以保持或促进信息的分离，评估表明我们的设计在多对象建模和长期时间依赖性的任务中显著提高了性能。

Jun, 2024

具有分形扫描的可扩展视觉状态空间模型

使用分形扫描曲线对图像补丁进行序列化以提高 State Space Models (SSMs) 的性能，同时避免冗余并增强对复杂模式的建模能力。

May, 2024

VM-DDPM：医学图像合成的视觉曼巴扩散

基于 SMM-CNN 混合结构的 Vision Mamba DDPM（VM-DDPM）用于医学图像合成，通过多级状态空间块（MSSBlock）、状态空间层（SSLayer）和交叉扫描模块（CSM）等方法，在三个不同规模的数据集上取得最先进的性能。

May, 2024

关于对角状态空间模型的参数化和初始化

本文提出了一种简单的 S4 模型的对角变体 S4D，通过限制状态矩阵为全对角可保持原模型性能而又易于实现。

Jun, 2022