Vision Mamba: 一项综合调查与分类
该研究综述了 Mamba 模型在计算机视觉领域的基本概念和优化方法,并介绍了它们在不同层次的视觉任务中的广泛应用,旨在引起学术界对当前挑战的关注并进一步应用 Mamba 模型于计算机视觉。
Apr, 2024
在这篇综述性文章中,我们回顾了 Mamba 模型的起源和核心见解,并将 Mamba 应用于不同的计算机视觉任务。我们对各种图像、视频、点云、多模态等应用进行了分类和组织,为未来在这个快速发展的领域中提供了挑战和研究方向。
Apr, 2024
本研究通过广泛实验评估不同模型角色的 Mamba 对视频理解的潜力,探索其在视频理解领域的替代性,发现 Mamba 在仅视频和视频语言任务上展现出强大的潜力,并显示了有希望的效率 - 性能平衡,为未来的视频理解研究提供了宝贵的数据和见解。
Mar, 2024
序列建模是跨多个领域的一个关键领域,包括自然语言处理、语音识别、时间序列预测、音乐生成和生物信息学。历史上,循环神经网络(RNNs)和长短时记忆网络(LSTMs)在机器翻译、命名实体识别等序列建模任务中占主导地位,但转换器的进步改变了这一范式,因为其性能更优越。然而,转换器面临 O (N^2) 注意力复杂度和处理归纳偏差的挑战。各种改进方法已被提出来应对这些问题,其中使用频谱网络或卷积在一些任务上表现良好,但仍然难以处理长序列。状态空间模型(SSMs)已经成为此背景下序列建模范式的有希望的可替代选择,特别是随着 S4 及其变种(如 S4nd、Hippo、Hyena、Diagnol State Spaces(DSS)、Gated State Spaces(GSS)、Linear Recurrent Unit(LRU)、Liquid-S4、Mamba 等)的出现。本综述将基于门控结构、结构体系和循环结构对基础 SSMs 进行分类,还重点介绍了 SSMs 在视觉、视频、音频、语音、语言(特别是长序列建模)、医疗(包括基因组学)、化学(如药物设计)、推荐系统和时间序列分析等领域的不同应用。此外,我们总结了 SSMs 在长序列竞技场(LRA)、WikiText、Glue、Pile、ImageNet、Kinetics-400、sstv2 以及早餐、硬币、LVU 等各种时间序列数据集上的性能。有关 Mamba-360 工作的项目页面可在此网页上找到:https://github.com/badripatro/mamba360。
Apr, 2024
通过基于状态空间模型的 VL-Mamba 多模态大语言模型和 2D 视觉选择扫描机制以及不同视觉编码器和预训练 Mamba 语言模型的组合的实证研究,我们证明了状态空间模型在多模态学习任务中具有巨大潜力,并展示了 VL-Mamba 在各种多模态基准测试中具有竞争力的性能。
Mar, 2024
基于 Mamba 算法的本地增强视觉 Mamba(LEVM)块和状态共享技术的图像融合网络(LE-Mamba)在多光谱和高光谱图像融合数据集上取得了最先进的结果,证明了该方法的有效性。
Apr, 2024
基于状态空间模型 (SSM) 成功在 NLP 任务中进行序列建模的启发,我们提出了具有全局建模和线性复杂度的 PointMamba 框架,通过重新排序策略提供更合理的几何扫描顺序来增强 SSM 的全局建模能力,实验证明我们的 PointMamba 在不同的点云分析数据集上胜过基于 transformer 的对应模型,同时节省了约 44.3% 的参数和 25% 的 FLOPs,展示了构建基础 3D 视觉模型的潜在选择,并为点云分析提供了新的视角。
Feb, 2024
通过集成视觉编码器与 Mamba 模型,RoboMamba 同时提供了机器人推理和动作能力,并且在模型的微调和推断过程中保持了高效的计算速度。
Jun, 2024
通过将 State Space Sequence Models (SSMs) 整合到卷积残差块中,nnMamba 架构能够提取局部特征并建模复杂的依赖关系,从而在医学图像分析的一系列挑战性任务中展现出卓越的性能。
Feb, 2024