MASK4D：4D 全景分割的掩码变换器

Sep, 2023

MASK4D: Mask Transformer for 4D Panoptic Segmentation

Kadir Yilmaz, Jonas Schult, Alexey Nekrasov, Bastian Leibe

TL;DRMask4D 是一种基于 Transformer 的方法，用于将 LiDAR 点云进行 4D 全景分割的挑战性任务，直接预测语义实例及其时间关联，无需借助任何手工设计的非学习关联策略，通过引入时空实例查询编码每个实例轨迹的语义和几何特性，并从时空实例查询回归 6DOF 边界框参数以促进紧凑的空间预测，最终在 SemanticKITTI 测试集上取得了 68.4 LSTQ 的新的最优效果，相较于已发表的表现最佳方法提高了至少 4.5%。

Abstract

Accurately perceiving and tracking instances over time is essential for the decision-making processes of autonomous agents interacting safely in dynamic environments. With this intention, we propose mask4d for the challenging task of →

mask4d 4d panoptic segmentation lidar point clouds transformer-based approach semantic instances

发现论文，激发创造

4D-Former: 多模态 4D 全景分割

通过整合 LiDAR 和图像数据，4D-Former 方法在 4D 全景分割任务上取得了最先进的结果，能够为 LiDAR 序列中的每个点分配语义类别标签和进行对象分割，并能在时间上保持一致的对象分割遮罩。

Nov, 2023

4D 全景式激光雷达分割

提出一种新的 4D 全景 LiDAR 分割方法，将语义类和时间一致的实例 ID 分配给 3D 点序列，使用点为中心的评估度量来确定每个点的语义类别，将对象实例建模为 4D 时空域中的概率分布，从而以更高效的方式处理多个点云。这项工作展望未来的超高效 LiDAR 全景感知。

Feb, 2021

TensorMask: 基于张量的密集物体分割基础

本文研究了密集滑动窗口实例分割的范例，将其作为 4D 张量预测任务，提出了一种称为 TensorMask 的通用框架，可以明确捕获几何信息和使预测更加准确，比现有的模型具有更好的性能表现。

Mar, 2019

SegNet4D：自动驾驶环境中有效高效的 4D LiDAR 语义分割

4D LiDAR 语义分割（也称为多扫描语义分割）是增强自动驾驶车辆环境理解能力的关键。本文介绍了 SegNet4D，一种利用基于投影的方法进行快速动态特征编码的实时多扫描语义分割方法，展示了卓越的性能。SegNet4D 将 4D 语义分割视为两个不同的任务：单扫描语义分割和运动目标分割，分别由专用头部解决，然后在提出的运动 - 语义融合模块中进行融合以实现全面的多扫描语义分割。此外，我们提出从当前扫描中提取实例信息，并将其并入网络以实现实例感知分割。我们的方法在多个数据集上表现出卓越的性能，是一种实时多扫描语义分割方法。SegNet4D 的实现将在 https://github.com/nubot-nudt/SegNet4D 上提供。

Jun, 2024

4D 全景场景图生成

在本文中，我们介绍了一种名为 4D Panoptic Scene Graph（PSG-4D）的新表示方法，用于在动态的四维世界中桥接原始视觉数据和高层次视觉理解。我们构建了一个富注释的 PSG-4D 数据集，并提出了 PSG4DFormer 模型，该模型可以预测全景分割掩码、跟踪掩码并通过关系组件生成相应的场景图。我们的方法在新数据集上进行了广泛实验，表明它可以作为 PSG-4D 未来研究的一个强有力的基准。最后，我们提供了一个真实世界的应用示例，以展示如何通过将大型语言模型整合到我们的 PSG-4D 系统中来实现动态场景理解。

May, 2024

OneFormer3D：统一点云分割的一种 Transformer

本文提出了一种统一、简单、有效的模型 OneFormer3D，利用可学习的卷积核同时处理实例分割和语义分割，通过输入统一的实例和语义查询来训练，并在 ScanNet 测试排行榜中取得了第一名和新的最佳性能，同时在 ScanNet、ScanNet200 和 S3DIS 数据集上展示了最领先的语义、实例和全景分割结果。

Nov, 2023

MIM4D：多视角视频遮蔽建模的自动驾驶表示学习

从大规模多视角视频数据中学习强大且可扩展的视觉表征仍然是计算机视觉和自动驾驶领域的一项挑战。我们提出了 MIM4D，一种基于双重遮罩图像建模（MIM）的新的预训练范例，它通过训练遮罩的多视角视频输入来利用空间和时间关系，从而构建伪 3D 特征并进行监督学习，以解决缺乏密集 3D 监测的问题。通过采用 3D 体积可微分渲染来学习几何表征，MIM4D 在自动驾驶中的可视表征学习任务中取得了最先进的性能，显著提高了多个下游任务的表现。

Mar, 2024

掩模关注掩模变换器用于通用图像分割

提供一种新的架构 Mask2Former，该架构通过应用掩蔽注意力机制提取局部特征来解决多种类型的图像分割任务，包括全景分割、实体分割和语义分割，并且优于当前最佳的专门任务架构。

Dec, 2021

X4D-SceneFormer: 通过跨模态知识迁移增强 4D 点云视频的场景理解

4D 点云理解领域中的 X4D-SceneFormer 框架通过跨模态知识传递和 Transformer 架构的时间关系挖掘，增强了 4D 场景理解，在动作识别和语义分割等各种 4D 点云视频理解任务中取得了卓越的性能，超过了最新技术水平。

Dec, 2023

高质量实例分割的 Mask Transfiner

本文介绍了一个高质量高效的实例分割方法 Mask Transfiner，该方法基于四叉树对图像区域进行分解和表示，并采用变换器方法处理检测到的存在误差的树节点并自动纠正错误，从而以较低的计算成本预测高度准确的实例掩码，并在三个流行基准测试上优于当前实例分割方法。

Nov, 2021