Mamba24/8D: 通过状态空间模型增强点云的全局交互
基于状态空间模型 (SSM) 成功在 NLP 任务中进行序列建模的启发,我们提出了具有全局建模和线性复杂度的 PointMamba 框架,通过重新排序策略提供更合理的几何扫描顺序来增强 SSM 的全局建模能力,实验证明我们的 PointMamba 在不同的点云分析数据集上胜过基于 transformer 的对应模型,同时节省了约 44.3% 的参数和 25% 的 FLOPs,展示了构建基础 3D 视觉模型的潜在选择,并为点云分析提供了新的视角。
Feb, 2024
通过引入局部几何特征提取机制和双向状态空间模型(bi-SSM),Mamba3D 模型在点云学习中取得了超过 Transformer 的卓越性能、高效性和可扩展性,在多个任务中超越同类模型和并行研究,包括在 ScanObjectNN 任务中从头开始的 92.6% 综合准确性和在 ModelNet40 分类任务中基于单模态预训练达到 95.1% 的准确性,并且具有线性复杂度。
Apr, 2024
本研究首次展示了基于 Mamba 的点云方法能够超越基于点的方法,Mamba 具备强大的全局建模能力和线性计算复杂度,对点云分析非常具有吸引力。为了更有效地处理 3D 点云数据,我们提出了一种新颖的一致遍历序列化方法,将点云转换为 1D 点序列,并确保序列中相邻的点也是空间上相邻的。一致遍历序列化方法通过排列 x、y 和 z 坐标的顺序产生六种变体,通过这些变体的协同使用,有助于 Mamba 全面观察点云数据。此外,为了更有效地帮助 Mamba 处理不同顺序的点序列,我们引入了点提示的概念,以告知 Mamba 序列的排列规则。最后,我们提出了基于空间坐标映射的位置编码方法,更好地将位置信息注入点云序列中。基于这些改进,我们构建了一种名为 Point Cloud Mamba 的点云网络,它结合了局部建模和全局建模。Point Cloud Mamba 超越了 SOTA 方法 PointNeXt,并在 ScanObjectNN、ModelNet40 和 ShapeNetPart 数据集上取得了新的 SOTA 性能。
Mar, 2024
提出了一种基于 SSM 的点云处理骨干网络 Point Mamba,具有因果感知的排序机制,在构建因果依赖关系方面采用基于八叉树的排序策略,通过全局排序点以 Z 序列并保留它们的空间接近度。与基于 transformer 的对应方法相比,我们的方法在 ModelNet40 分类数据集和 ScanNet 语义分割数据集上分别达到了 93.4%的准确率和 75.7 的 mIOU,且 Point Mamba 具有线性复杂度,比基于 transformer 的方法更高效。这表明 SSM 在点云理解中具有巨大潜力。
Mar, 2024
基于状态空间模型(SSM)的 Mamba 与 Transformer 架构相结合的 PointABM 模型,在改善局部特征以提高 3D 点云分析性能方面表现出优越性,并通过引入双向 SSM 框架和自注意机制进一步增强了特征提取能力,实验证明整合 Mamba 与 Transformer 显著提高了 3D 点云分析模型的能力。
Jun, 2024
基于 Mamba 框架的 3DMambaComplete 网络通过 Hyperpoints 的选择、分布和形变实现点云完整性,超过了其他点云完整性方法,经定性和定量分析证实。
Apr, 2024
基于最近提出的状态空间模型(SSMs)的新型 4D 点云视频理解骨干网络,通过解开原始 4D 序列中的空间和时间,使用新开发的 Intra-frame Spatial Mamba 和 Inter-frame Temporal Mamba 模块建立了点云视频内部和帧间的时空关联,并在人体动作识别和 4D 语义分割任务上证明了该方法的优越性。
May, 2024
基于序列化的方法在 3D 物体检测中展示了其有效性,但是将三维体素序列化为一维序列会不可避免地牺牲体素的空间接近性。本文引入了一种名为 Voxel Mamba 的体素状态空间模型(Voxel SSM),采用无分组策略将全部体素空间序列化为单一序列,并提出了一种双尺度 SSM 块以建立分层结构,增强 1D 序列化曲线的感受野和三维空间的完整局部区域。利用位置编码隐式地应用窗口分割,进一步增强了体素的空间接近性。在 Waymo Open Dataset 和 nuScenes 数据集上的实验证明,Voxel Mamba 不仅实现了比现有方法更高的准确性,并且在计算效率方面具有显著优势。
Jun, 2024
SegMamba 是一种新颖的 3D 医学图像分割模型,通过有效地捕捉各个尺度上的全体积特征的远程依赖性,从状态空间模型的角度在全体积特征建模方面胜过基于 Transformer 的方法,保持出色的处理速度,即使是具有 {$64 imes 64 imes 64$} 分辨率的体积特征。在 BraTS2023 数据集上的综合实验证明了 SegMamba 的有效性和高效性。
Jan, 2024
基于 Transformer 架构的基础模型凭借其核心注意力模块,驱动着深度学习中大部分令人兴奋的应用。我们发现这种模型的一个关键弱点是其无法进行内容导向的推理,并对此进行了改进,通过让结构状态空间模型(SSMs)参数成为输入的函数来解决离散模态的弱点,该模型在长度可选的维度上选择性地传播或遗忘信息,并且通过在递归模式下设计一种硬件感知并行算法,将这些选择性 SSMs 集成到简化的端到端神经网络架构中。该模型(Mamba)具有快速推断速度(比 Transformers 快 5 倍)和序列长度的线性扩展,并在实际数据上对长达百万长度的序列显示出改进。作为一种基于通用序列模型的支持,Mamba 在语言、音频和基因组等多个模态上实现了最先进的性能。在语言建模中,我们的 Mamba-3B 模型在预训练和下游评估中均优于同样大小的 Transformers,与其两倍大小的模型性能相当。
Dec, 2023