4D-Former: 多模态 4D 全景分割

Nov, 2023

4D-Former: Multimodal 4D Panoptic Segmentation

Ali Athar, Enxu Li, Sergio Casas, Raquel Urtasun

TL;DR通过整合 LiDAR 和图像数据，4D-Former 方法在 4D 全景分割任务上取得了最先进的结果，能够为 LiDAR 序列中的每个点分配语义类别标签和进行对象分割，并能在时间上保持一致的对象分割遮罩。

Abstract

4d panoptic segmentation is a challenging but practically useful task that requires every point in a lidar point-cloud sequence to be assigned a semantic class label, and individual objects to be segmented and tr

4d panoptic segmentation lidar point-cloud sequence rgb camera images 4d-former temporally consistent object masks

发现论文，激发创造

4D 全景式激光雷达分割

提出一种新的 4D 全景 LiDAR 分割方法，将语义类和时间一致的实例 ID 分配给 3D 点序列，使用点为中心的评估度量来确定每个点的语义类别，将对象实例建模为 4D 时空域中的概率分布，从而以更高效的方式处理多个点云。这项工作展望未来的超高效 LiDAR 全景感知。

Feb, 2021

MASK4D：4D 全景分割的掩码变换器

Mask4D 是一种基于 Transformer 的方法，用于将 LiDAR 点云进行 4D 全景分割的挑战性任务，直接预测语义实例及其时间关联，无需借助任何手工设计的非学习关联策略，通过引入时空实例查询编码每个实例轨迹的语义和几何特性，并从时空实例查询回归 6DOF 边界框参数以促进紧凑的空间预测，最终在 SemanticKITTI 测试集上取得了 68.4 LSTQ 的新的最优效果，相较于已发表的表现最佳方法提高了至少 4.5%。

Sep, 2023

2D-3D 视觉 - 语言蒸馏的 3D 开放词汇全景分割

我们提出了一种新方法，通过学习 LiDAR 特征和固定的 CLIP 特征之间的融合来处理 3D 开放式词汇全景分割问题，并提出了两个新的损失函数：物体级蒸馏损失和体素级蒸馏损失。在 nuScenes 和 SemanticKITTI 数据集上的实验证明，我们的方法显著优于强基准模型。

Jan, 2024

SegNet4D：自动驾驶环境中有效高效的 4D LiDAR 语义分割

4D LiDAR 语义分割（也称为多扫描语义分割）是增强自动驾驶车辆环境理解能力的关键。本文介绍了 SegNet4D，一种利用基于投影的方法进行快速动态特征编码的实时多扫描语义分割方法，展示了卓越的性能。SegNet4D 将 4D 语义分割视为两个不同的任务：单扫描语义分割和运动目标分割，分别由专用头部解决，然后在提出的运动 - 语义融合模块中进行融合以实现全面的多扫描语义分割。此外，我们提出从当前扫描中提取实例信息，并将其并入网络以实现实例感知分割。我们的方法在多个数据集上表现出卓越的性能，是一种实时多扫描语义分割方法。SegNet4D 的实现将在 https://github.com/nubot-nudt/SegNet4D 上提供。

Jun, 2024

大规模 LiDAR 点云中精确实例分割的研究

研究通过聚类策略和点嵌入来改进全景分割的实例分割步骤，以解决同一个语义类别附近实例分割的挑战，实验证明该策略的有效性和多样性。

Jul, 2023

OneFormer3D：统一点云分割的一种 Transformer

本文提出了一种统一、简单、有效的模型 OneFormer3D，利用可学习的卷积核同时处理实例分割和语义分割，通过输入统一的实例和语义查询来训练，并在 ScanNet 测试排行榜中取得了第一名和新的最佳性能，同时在 ScanNet、ScanNet200 和 S3DIS 数据集上展示了最领先的语义、实例和全景分割结果。

Nov, 2023

自动驾驶多模态三维语义分割 MSeg3D

利用多模态数据的几何和语义特征，通过三个步骤来完成多模态 3D 语义分割任务。经过我们的研究，MSeg3D 在 nuScenes、Waymo 和 SemanticKITTI 数据集上取得了最先进的结果。

Mar, 2023

4D 全景场景图生成

在本文中，我们介绍了一种名为 4D Panoptic Scene Graph（PSG-4D）的新表示方法，用于在动态的四维世界中桥接原始视觉数据和高层次视觉理解。我们构建了一个富注释的 PSG-4D 数据集，并提出了 PSG4DFormer 模型，该模型可以预测全景分割掩码、跟踪掩码并通过关系组件生成相应的场景图。我们的方法在新数据集上进行了广泛实验，表明它可以作为 PSG-4D 未来研究的一个强有力的基准。最后，我们提供了一个真实世界的应用示例，以展示如何通过将大型语言模型整合到我们的 PSG-4D 系统中来实现动态场景理解。

May, 2024

X4D-SceneFormer: 通过跨模态知识迁移增强 4D 点云视频的场景理解

4D 点云理解领域中的 X4D-SceneFormer 框架通过跨模态知识传递和 Transformer 架构的时间关系挖掘，增强了 4D 场景理解，在动作识别和语义分割等各种 4D 点云视频理解任务中取得了卓越的性能，超过了最新技术水平。

Dec, 2023

深度感知全景分割

基于 RGB 图像和深度图像的全景分割的新方法；通过使用所观察场景的 3D 几何信息，减少错误合并为一个事物实例的对象数量，提高全景质量。

Mar, 2024