Jun, 2024

体素眼镜蛇:基于点云的三维物体检测的无群组状态空间模型

TL;DR基于序列化的方法在 3D 物体检测中展示了其有效性,但是将三维体素序列化为一维序列会不可避免地牺牲体素的空间接近性。本文引入了一种名为 Voxel Mamba 的体素状态空间模型(Voxel SSM),采用无分组策略将全部体素空间序列化为单一序列,并提出了一种双尺度 SSM 块以建立分层结构,增强 1D 序列化曲线的感受野和三维空间的完整局部区域。利用位置编码隐式地应用窗口分割,进一步增强了体素的空间接近性。在 Waymo Open Dataset 和 nuScenes 数据集上的实验证明,Voxel Mamba 不仅实现了比现有方法更高的准确性,并且在计算效率方面具有显著优势。