无蒸馏的大规模状态空间模型在图像和视频中的扩展

Sep, 2024

无蒸馏的大规模状态空间模型在图像和视频中的扩展

Distillation-free Scaling of Large SSMs for Images and Videos

Hamid Suleman, Syed Talal Wasim, Muzammal Naseer, Juergen Gall

TL;DR本研究解决了大规模状态空间模型（SSMs）在图像分类和动作识别中的可扩展性问题，特别是针对Mamba模型无法有效扩展参数数量的限制。通过提出一种Mamba-注意力交错架构，该研究显著提升了可扩展性、鲁棒性和性能，且在多个基准测试中展现了相较于现有模型高出1.7的准确率提升。

Abstract

State-space models (SSMs), exemplified by S4, have introduced a novel context modeling method by integrating state-space techniques into deep learning. However, they struggle with global context modeling due to their data-independent matrices. The Mamba model addressed this with data-d

发现论文，激发创造

Mamba：具有选择性状态空间的线性时间序列建模

基于Transformer架构的基础模型凭借其核心注意力模块，驱动着深度学习中大部分令人兴奋的应用。我们发现这种模型的一个关键弱点是其无法进行内容导向的推理，并对此进行了改进，通过让结构状态空间模型（SSMs）参数成为输入的函数来解决离散模态的弱点，该模型在长度可选的维度上选择性地传播或遗忘信息，并且通过在递归模式下设计一种硬件感知并行算法，将这些选择性SSMs集成到简化的端到端神经网络架构中。该模型（Mamba）具有快速推断速度（比Transformers快5倍）和序列长度的线性扩展，并在实际数据上对长达百万长度的序列显示出改进。作为一种基于通用序列模型的支持，Mamba在语言、音频和基因组等多个模态上实现了最先进的性能。在语言建模中，我们的Mamba-3B模型在预训练和下游评估中均优于同样大小的Transformers，与其两倍大小的模型性能相当。

Dec, 2023

曼巴模型的隐含关注

Mamba层是一种高效的选择性状态空间模型(SSM)，在模拟多个领域包括自然语言处理(NLP)，长程序列处理和计算机视觉方面非常有效。

Mar, 2024

视频曼巴组合套件：状态空间模型作为视频理解的多功能替代方案

本研究通过广泛实验评估不同模型角色的Mamba对视频理解的潜力，探索其在视频理解领域的替代性，发现Mamba在仅视频和视频语言任务上展现出强大的潜力，并显示了有希望的效率-性能平衡，为未来的视频理解研究提供了宝贵的数据和见解。

Mar, 2024

SiMBA: 简化的基于Mamba的视觉与多元时间序列架构

提出了一种新的体系结构SiMBA，通过特定特征值计算引入Einstein FFT（EinFFT）用于通道建模，使用Mamba块进行序列建模，通过对图像和时间序列基准的广泛性能研究证明SiMBA在性能上优于现有的SSMs，缩小与现有的transformers的性能差距。

Mar, 2024

关于视觉曼巴的调查

该研究综述了Mamba模型在计算机视觉领域的基本概念和优化方法，并介绍了它们在不同层次的视觉任务中的广泛应用，旨在引起学术界对当前挑战的关注并进一步应用Mamba模型于计算机视觉。

Apr, 2024

Vision Mamba: 模型、应用和挑战综述

在这篇综述性文章中，我们回顾了Mamba模型的起源和核心见解，并将Mamba应用于不同的计算机视觉任务。我们对各种图像、视频、点云、多模态等应用进行了分类和组织，为未来在这个快速发展的领域中提供了挑战和研究方向。

Apr, 2024

Vision Mamba: 一项综合调查与分类

Mamba是一种新型的人工智能架构，基于最新的状态空间模型，具有强大的效率和长距离依赖建模能力，被广泛应用于深度学习中的自然语言处理和视觉领域。本综述研究了Mamba在视觉任务和数据类型上的应用，探讨了其前身、最新进展以及对各领域的深远影响。

May, 2024

MambaOut：我们是否真的需要Mamba来进行视觉任务？

Mamba适用于具有长序列和自回归特性的任务，但不适用于图像分类；Mamba在目标检测和分割任务中表现不如注意力模型，但显示出在长序列视觉任务中的潜力。

May, 2024

多尺度VMamba: 层次化视觉状态空间模型

通过分析多次扫描策略在多尺度视觉任务中的成功原因，本研究介绍了Multi-Scale Vision Mamba（MSVMamba）模型，采用多尺度二维扫描技术并整合了卷积前馈网络（ConvFFN），在有限参数下保留了State Space Models（SSMs）在视觉任务中的卓越性能。

May, 2024

关于Mamba的综述

本研究针对Transformer模型在推理过程中面临的计算复杂性问题，提出了Mamba架构作为具有线性可扩展性的替代方案。通过系统回顾Mamba相关研究，文章探讨了Mamba模型的架构设计、数据适应性及其应用，揭示了其在多个领域中的潜力与局限性，为未来研究提供了方向。

Aug, 2024