Vision Mamba: 一项综合调查与分类

May, 2024

Vision Mamba: A Comprehensive Survey and Taxonomy

Xiao Liu, Chenxu Zhang, Lei Zhang

TL;DRMamba 是一种新型的人工智能架构，基于最新的状态空间模型，具有强大的效率和长距离依赖建模能力，被广泛应用于深度学习中的自然语言处理和视觉领域。本综述研究了 Mamba 在视觉任务和数据类型上的应用，探讨了其前身、最新进展以及对各领域的深远影响。

Abstract

state space model (SSM) is a mathematical model used to describe and analyze the behavior of dynamic systems. This model has witnessed numerous applications in several fields, including control theory, signal processing, economics and machine learning. In the field of →

state space model deep learning nlp mamba visual tasks

发现论文，激发创造

关于视觉曼巴的调查

该研究综述了 Mamba 模型在计算机视觉领域的基本概念和优化方法，并介绍了它们在不同层次的视觉任务中的广泛应用，旨在引起学术界对当前挑战的关注并进一步应用 Mamba 模型于计算机视觉。

Apr, 2024

计算效率时代：医学图像分析中状态空间模型的综合调查

该论文通过对 Mamba 模型在医学图像中的应用进行全面回顾，介绍了该模型的架构、分类和未来研究方向。

Jun, 2024

Vision Mamba: 模型、应用和挑战综述

在这篇综述性文章中，我们回顾了 Mamba 模型的起源和核心见解，并将 Mamba 应用于不同的计算机视觉任务。我们对各种图像、视频、点云、多模态等应用进行了分类和组织，为未来在这个快速发展的领域中提供了挑战和研究方向。

Apr, 2024

视频曼巴组合套件：状态空间模型作为视频理解的多功能替代方案

本研究通过广泛实验评估不同模型角色的 Mamba 对视频理解的潜力，探索其在视频理解领域的替代性，发现 Mamba 在仅视频和视频语言任务上展现出强大的潜力，并显示了有希望的效率 - 性能平衡，为未来的视频理解研究提供了宝贵的数据和见解。

Mar, 2024

Mamba-360：状态空间模型作为长序列建模的 Transformer 替代方案调研：方法、应用和挑战

序列建模是跨多个领域的一个关键领域，包括自然语言处理、语音识别、时间序列预测、音乐生成和生物信息学。历史上，循环神经网络（RNNs）和长短时记忆网络（LSTMs）在机器翻译、命名实体识别等序列建模任务中占主导地位，但转换器的进步改变了这一范式，因为其性能更优越。然而，转换器面临 O (N^2) 注意力复杂度和处理归纳偏差的挑战。各种改进方法已被提出来应对这些问题，其中使用频谱网络或卷积在一些任务上表现良好，但仍然难以处理长序列。状态空间模型（SSMs）已经成为此背景下序列建模范式的有希望的可替代选择，特别是随着 S4 及其变种（如 S4nd、Hippo、Hyena、Diagnol State Spaces（DSS）、Gated State Spaces（GSS）、Linear Recurrent Unit（LRU）、Liquid-S4、Mamba 等）的出现。本综述将基于门控结构、结构体系和循环结构对基础 SSMs 进行分类，还重点介绍了 SSMs 在视觉、视频、音频、语音、语言（特别是长序列建模）、医疗（包括基因组学）、化学（如药物设计）、推荐系统和时间序列分析等领域的不同应用。此外，我们总结了 SSMs 在长序列竞技场（LRA）、WikiText、Glue、Pile、ImageNet、Kinetics-400、sstv2 以及早餐、硬币、LVU 等各种时间序列数据集上的性能。有关 Mamba-360 工作的项目页面可在此网页上找到：https://github.com/badripatro/mamba360。

Apr, 2024

VL-Mamba: 多模式学习中的状态空间模型探索

通过基于状态空间模型的 VL-Mamba 多模态大语言模型和 2D 视觉选择扫描机制以及不同视觉编码器和预训练 Mamba 语言模型的组合的实证研究，我们证明了状态空间模型在多模态学习任务中具有巨大潜力，并展示了 VL-Mamba 在各种多模态基准测试中具有竞争力的性能。

Mar, 2024

一种用于图像融合的局部增强和状态共享的新型状态空间模型

基于 Mamba 算法的本地增强视觉 Mamba（LEVM）块和状态共享技术的图像融合网络（LE-Mamba）在多光谱和高光谱图像融合数据集上取得了最先进的结果，证明了该方法的有效性。

Apr, 2024

PointMamba：一种用于点云分析的简单状态空间模型

基于状态空间模型 (SSM) 成功在 NLP 任务中进行序列建模的启发，我们提出了具有全局建模和线性复杂度的 PointMamba 框架，通过重新排序策略提供更合理的几何扫描顺序来增强 SSM 的全局建模能力，实验证明我们的 PointMamba 在不同的点云分析数据集上胜过基于 transformer 的对应模型，同时节省了约 44.3% 的参数和 25% 的 FLOPs，展示了构建基础 3D 视觉模型的潜在选择，并为点云分析提供了新的视角。

Feb, 2024

RoboMamba: 高效机器人推理和操作的多模态状态空间模型

通过集成视觉编码器与 Mamba 模型，RoboMamba 同时提供了机器人推理和动作能力，并且在模型的微调和推断过程中保持了高效的计算速度。

Jun, 2024

nnMamba：使用状态空间模型进行 3D 生物医学图像分割、分类和地标检测

通过将 State Space Sequence Models (SSMs) 整合到卷积残差块中，nnMamba 架构能够提取局部特征并建模复杂的依赖关系，从而在医学图像分析的一系列挑战性任务中展现出卓越的性能。

Feb, 2024