无蒸馏的大规模状态空间模型在图像和视频中的扩展
基于Transformer架构的基础模型凭借其核心注意力模块,驱动着深度学习中大部分令人兴奋的应用。我们发现这种模型的一个关键弱点是其无法进行内容导向的推理,并对此进行了改进,通过让结构状态空间模型(SSMs)参数成为输入的函数来解决离散模态的弱点,该模型在长度可选的维度上选择性地传播或遗忘信息,并且通过在递归模式下设计一种硬件感知并行算法,将这些选择性SSMs集成到简化的端到端神经网络架构中。该模型(Mamba)具有快速推断速度(比Transformers快5倍)和序列长度的线性扩展,并在实际数据上对长达百万长度的序列显示出改进。作为一种基于通用序列模型的支持,Mamba在语言、音频和基因组等多个模态上实现了最先进的性能。在语言建模中,我们的Mamba-3B模型在预训练和下游评估中均优于同样大小的Transformers,与其两倍大小的模型性能相当。
Dec, 2023
本研究通过广泛实验评估不同模型角色的Mamba对视频理解的潜力,探索其在视频理解领域的替代性,发现Mamba在仅视频和视频语言任务上展现出强大的潜力,并显示了有希望的效率-性能平衡,为未来的视频理解研究提供了宝贵的数据和见解。
Mar, 2024
提出了一种新的体系结构SiMBA,通过特定特征值计算引入Einstein FFT(EinFFT)用于通道建模,使用Mamba块进行序列建模,通过对图像和时间序列基准的广泛性能研究证明SiMBA在性能上优于现有的SSMs,缩小与现有的transformers的性能差距。
Mar, 2024
该研究综述了Mamba模型在计算机视觉领域的基本概念和优化方法,并介绍了它们在不同层次的视觉任务中的广泛应用,旨在引起学术界对当前挑战的关注并进一步应用Mamba模型于计算机视觉。
Apr, 2024
在这篇综述性文章中,我们回顾了Mamba模型的起源和核心见解,并将Mamba应用于不同的计算机视觉任务。我们对各种图像、视频、点云、多模态等应用进行了分类和组织,为未来在这个快速发展的领域中提供了挑战和研究方向。
Apr, 2024
Mamba是一种新型的人工智能架构,基于最新的状态空间模型,具有强大的效率和长距离依赖建模能力,被广泛应用于深度学习中的自然语言处理和视觉领域。本综述研究了Mamba在视觉任务和数据类型上的应用,探讨了其前身、最新进展以及对各领域的深远影响。
May, 2024
Mamba适用于具有长序列和自回归特性的任务,但不适用于图像分类;Mamba在目标检测和分割任务中表现不如注意力模型,但显示出在长序列视觉任务中的潜力。
May, 2024
通过分析多次扫描策略在多尺度视觉任务中的成功原因,本研究介绍了Multi-Scale Vision Mamba(MSVMamba)模型,采用多尺度二维扫描技术并整合了卷积前馈网络(ConvFFN),在有限参数下保留了State Space Models(SSMs)在视觉任务中的卓越性能。
May, 2024
本研究针对Transformer模型在推理过程中面临的计算复杂性问题,提出了Mamba架构作为具有线性可扩展性的替代方案。通过系统回顾Mamba相关研究,文章探讨了Mamba模型的架构设计、数据适应性及其应用,揭示了其在多个领域中的潜力与局限性,为未来研究提供了方向。
Aug, 2024