MarS3D:多扫描三维点云语义分割的即插即用动作感知模型
MS$^{2}$3D 是一个两阶段的三维检测框架,利用小尺寸的体素提取细粒度的局部特征和大尺寸的体素捕捉长程局部特征,通过多尺度语义特征点构建三维特征层并计算特征点与目标质心的偏移,以提高特征聚合的效率,在 KITTI 数据集和 ONCE 数据集上验证了该方法的有效性。
Aug, 2023
4D LiDAR 语义分割(也称为多扫描语义分割)是增强自动驾驶车辆环境理解能力的关键。本文介绍了 SegNet4D,一种利用基于投影的方法进行快速动态特征编码的实时多扫描语义分割方法,展示了卓越的性能。SegNet4D 将 4D 语义分割视为两个不同的任务:单扫描语义分割和运动目标分割,分别由专用头部解决,然后在提出的运动 - 语义融合模块中进行融合以实现全面的多扫描语义分割。此外,我们提出从当前扫描中提取实例信息,并将其并入网络以实现实例感知分割。我们的方法在多个数据集上表现出卓越的性能,是一种实时多扫描语义分割方法。SegNet4D 的实现将在 https://github.com/nubot-nudt/SegNet4D 上提供。
Jun, 2024
提出了 MultiBodySync,一个新颖的、端到端可训练的多体运动分割和刚体配准框架,利用光谱同步和迭代深度声明网络解决多扫描多体情形下的运动分割和匹配问题,实现了在不同对象类别上的强泛化能力。
Jan, 2021
利用多模态数据的几何和语义特征,通过三个步骤来完成多模态 3D 语义分割任务。经过我们的研究,MSeg3D 在 nuScenes、Waymo 和 SemanticKITTI 数据集上取得了最先进的结果。
Mar, 2023
该研究提出了一种基于深度学习的统一框架,通过将相机视频、运动传感器(GPS/IMU)和三维语义地图进行传感器融合,以实现自主驾驶、自我定位和场景分类等多个应用领域中场景解析和相机姿态同时处理的目的。研究使用的技术包括渲染技术,使用相机姿态和三维语义地图生成标注地图,并在深度神经网络中进行联合训练,以提高姿态估计精度。该研究表明,相较于单一传感器,传感器融合对于目标跟踪及姿态估计具有更高的鲁棒性和准确性。
May, 2018
本文提出了一种端到端可训练的多视角聚合模型,利用 3D 点的视角优势,从任意位置拍摄的图像中合并特征,将标准 2D 和 3D 网络相结合,不需要着色、上网格或真实深度图,我们在 S3DIS 和 KITTI-360 数据集上取得了新的最佳效果。
Apr, 2022
SAM3D 是一个创新的框架,通过利用 RGB 图像中的 Segment-Anything 模型而无需进一步训练或微调,能够在 3D 点云中预测掩模,首先预测具有 SAM 的 RGB 图像的分割掩模,然后将 2D 掩模投影到 3D 点中。最后,两个相邻帧的点云掩模以双向合并的方式进行合并,最终可以将不同帧预测出的 3D 掩模逐渐合并为整个 3D 场景的 3D 掩模,实验结果表明 SAM3D 能够在不需要对 SAM 进行训练或微调的情况下,实现合理和细粒度的 3D 分割结果。
Jun, 2023
在自动驾驶中,相较于 2D 检测,3D 检测能够提供更精确的信息用于路径规划和运动估计。然而,由于缺乏几何信息,单一和多视角图像以及来自相机的深度图在检测精度上相对较低。本文提出了 SeSame:一种基于点的语义特征的新表达方法,以确保基于 LiDAR 的 3D 检测具有充足的语义信息。实验证明,我们的方法在 KITTI 物体检测基准测试中在不同难度级别和车辆上优于以前的最先进方法。
Mar, 2024
本文提出了一种高效而健壮的技术,实现了 3D 室内场景的即时密集语义分割和重建,该方法基于高效的超体素聚类方法和来自结构和对象线索的高阶约束的条件随机场,无需预先计算即可进行渐进式密集语义分割。通过对 SceneNN 和 ScanNet 数据集中的不同室内场景进行广泛评估,证明了该技术在定性和定量实验中始终能够产生最先进的分割结果。
Apr, 2018
通过深度学习技术,我们提出了一种新的架构 RESCAL3D,用于对点云进行分辨率可扩展的三维语义分割,该方法在实现极快的推断速度的同时,保持了较高的性能水平。
Apr, 2024