4D-Former: 多模态 4D 全景分割
提出一种新的 4D 全景 LiDAR 分割方法,将语义类和时间一致的实例 ID 分配给 3D 点序列,使用点为中心的评估度量来确定每个点的语义类别,将对象实例建模为 4D 时空域中的概率分布,从而以更高效的方式处理多个点云。这项工作展望未来的超高效 LiDAR 全景感知。
Feb, 2021
Mask4D 是一种基于 Transformer 的方法,用于将 LiDAR 点云进行 4D 全景分割的挑战性任务,直接预测语义实例及其时间关联,无需借助任何手工设计的非学习关联策略,通过引入时空实例查询编码每个实例轨迹的语义和几何特性,并从时空实例查询回归 6DOF 边界框参数以促进紧凑的空间预测,最终在 SemanticKITTI 测试集上取得了 68.4 LSTQ 的新的最优效果,相较于已发表的表现最佳方法提高了至少 4.5%。
Sep, 2023
我们提出了一种新方法,通过学习 LiDAR 特征和固定的 CLIP 特征之间的融合来处理 3D 开放式词汇全景分割问题,并提出了两个新的损失函数:物体级蒸馏损失和体素级蒸馏损失。在 nuScenes 和 SemanticKITTI 数据集上的实验证明,我们的方法显著优于强基准模型。
Jan, 2024
4D LiDAR 语义分割(也称为多扫描语义分割)是增强自动驾驶车辆环境理解能力的关键。本文介绍了 SegNet4D,一种利用基于投影的方法进行快速动态特征编码的实时多扫描语义分割方法,展示了卓越的性能。SegNet4D 将 4D 语义分割视为两个不同的任务:单扫描语义分割和运动目标分割,分别由专用头部解决,然后在提出的运动 - 语义融合模块中进行融合以实现全面的多扫描语义分割。此外,我们提出从当前扫描中提取实例信息,并将其并入网络以实现实例感知分割。我们的方法在多个数据集上表现出卓越的性能,是一种实时多扫描语义分割方法。SegNet4D 的实现将在 https://github.com/nubot-nudt/SegNet4D 上提供。
Jun, 2024
本文提出了一种统一、简单、有效的模型 OneFormer3D,利用可学习的卷积核同时处理实例分割和语义分割,通过输入统一的实例和语义查询来训练,并在 ScanNet 测试排行榜中取得了第一名和新的最佳性能,同时在 ScanNet、ScanNet200 和 S3DIS 数据集上展示了最领先的语义、实例和全景分割结果。
Nov, 2023
利用多模态数据的几何和语义特征,通过三个步骤来完成多模态 3D 语义分割任务。经过我们的研究,MSeg3D 在 nuScenes、Waymo 和 SemanticKITTI 数据集上取得了最先进的结果。
Mar, 2023
在本文中,我们介绍了一种名为 4D Panoptic Scene Graph(PSG-4D)的新表示方法,用于在动态的四维世界中桥接原始视觉数据和高层次视觉理解。我们构建了一个富注释的 PSG-4D 数据集,并提出了 PSG4DFormer 模型,该模型可以预测全景分割掩码、跟踪掩码并通过关系组件生成相应的场景图。我们的方法在新数据集上进行了广泛实验,表明它可以作为 PSG-4D 未来研究的一个强有力的基准。最后,我们提供了一个真实世界的应用示例,以展示如何通过将大型语言模型整合到我们的 PSG-4D 系统中来实现动态场景理解。
May, 2024
4D 点云理解领域中的 X4D-SceneFormer 框架通过跨模态知识传递和 Transformer 架构的时间关系挖掘,增强了 4D 场景理解,在动作识别和语义分割等各种 4D 点云视频理解任务中取得了卓越的性能,超过了最新技术水平。
Dec, 2023