Mamba YOLO:基于 SSMs 的目标检测
应用 Mamba 到多类无监督异常检测,提出了包含预训练编码器和 Mamba 解码器的 MambaAD,通过在多个尺度上引入局部增强状态空间模块 (LSS),该方法在六个不同的异常检测数据集上展示了具有 SoTA 性能的结果,证实了其有效性。
Apr, 2024
通过引入局部几何特征提取机制和双向状态空间模型(bi-SSM),Mamba3D 模型在点云学习中取得了超过 Transformer 的卓越性能、高效性和可扩展性,在多个任务中超越同类模型和并行研究,包括在 ScanObjectNN 任务中从头开始的 92.6% 综合准确性和在 ModelNet40 分类任务中基于单模态预训练达到 95.1% 的准确性,并且具有线性复杂度。
Apr, 2024
基于 Transformer 架构的基础模型凭借其核心注意力模块,驱动着深度学习中大部分令人兴奋的应用。我们发现这种模型的一个关键弱点是其无法进行内容导向的推理,并对此进行了改进,通过让结构状态空间模型(SSMs)参数成为输入的函数来解决离散模态的弱点,该模型在长度可选的维度上选择性地传播或遗忘信息,并且通过在递归模式下设计一种硬件感知并行算法,将这些选择性 SSMs 集成到简化的端到端神经网络架构中。该模型(Mamba)具有快速推断速度(比 Transformers 快 5 倍)和序列长度的线性扩展,并在实际数据上对长达百万长度的序列显示出改进。作为一种基于通用序列模型的支持,Mamba 在语言、音频和基因组等多个模态上实现了最先进的性能。在语言建模中,我们的 Mamba-3B 模型在预训练和下游评估中均优于同样大小的 Transformers,与其两倍大小的模型性能相当。
Dec, 2023
该研究综述了 Mamba 模型在计算机视觉领域的基本概念和优化方法,并介绍了它们在不同层次的视觉任务中的广泛应用,旨在引起学术界对当前挑战的关注并进一步应用 Mamba 模型于计算机视觉。
Apr, 2024
这篇研究论文介绍了 FER-YOLO-Mamba 模型,它是一个用于面部表情图像识别和定位的视觉 Mamba 模型,结合了 Mamba 和 YOLO 技术的原理,进一步设计了 FER-YOLO-VSS 双分支模块,以提高识别性能。
May, 2024
通过将 State Space Sequence Models (SSMs) 整合到卷积残差块中,nnMamba 架构能够提取局部特征并建模复杂的依赖关系,从而在医学图像分析的一系列挑战性任务中展现出卓越的性能。
Feb, 2024
基于状态空间模型 (SSM) 成功在 NLP 任务中进行序列建模的启发,我们提出了具有全局建模和线性复杂度的 PointMamba 框架,通过重新排序策略提供更合理的几何扫描顺序来增强 SSM 的全局建模能力,实验证明我们的 PointMamba 在不同的点云分析数据集上胜过基于 transformer 的对应模型,同时节省了约 44.3% 的参数和 25% 的 FLOPs,展示了构建基础 3D 视觉模型的潜在选择,并为点云分析提供了新的视角。
Feb, 2024
本文提出了一种新的通用计算机视觉基础模型 Vim,该模型采用双向状态空间模型对图像序列进行标记并压缩视觉表示,并在 ImageNet 分类、COCO 目标检测和 ADE20k 语义分割任务中取得了比 DeiT 等常见视觉转换器更高的性能,同时具有显著提高的计算和内存效率。
Jan, 2024