基于语言的室内野外 3D 语义分割

Apr, 2022

Language-Grounded Indoor 3D Semantic Segmentation in the Wild

David Rozenberszki, Or Litany, Angela Dai

TL;DR本文提出新的计算机视觉方法，使 3D 语义分割可以更好地理解具有更多类别和自然分布的真实环境，并在新的扩展基准上测试，使用语言驱动的预训练方法使特征更鲁棒。实验结果表明，我们的方法在提出的基准上始终优于现有技术。

Abstract

Recent advances in 3d semantic segmentation with deep neural networks have shown remarkable success, with rapid performance increase on available datasets. However, current →

3d semantic segmentation deep neural networks extended benchmark pre-training method natural class imbalance

发现论文，激发创造

Semantic3D.net：一个新的大规模点云分类基准

本文介绍了一个新的 3D 点云分类基准数据集，其中包含超过 40 亿个手动标记的点，用于数据密集型的（深度）学习方法。使用深度卷积神经网络（CNNs）作为工作马的初始提交已经显示出相对于现有技术具有显著的性能改进。我们提供了基线方法描述和通过我们的在线系统提交方法之间的比较。我们希望 Semantic3D.net 能够为 3D 点云标注中的深度学习方法铺平道路。

Apr, 2017

室内场景实时渐进式 3D 语义分割

本文提出了一种高效而健壮的技术，实现了 3D 室内场景的即时密集语义分割和重建，该方法基于高效的超体素聚类方法和来自结构和对象线索的高阶约束的条件随机场，无需预先计算即可进行渐进式密集语义分割。通过对 SceneNN 和 ScanNet 数据集中的不同室内场景进行广泛评估，证明了该技术在定性和定量实验中始终能够产生最先进的分割结果。

Apr, 2018

WildScenes：大规模自然环境下的二维和三维语义分割基准

近期在语义场景理解方面的进展主要得益于城市环境中具有语义注释的双模态（相机和激光雷达）数据集的可用性。然而，为了实现自然、非结构化环境下的语义感知应用，包括自然保护、搜救、环境监测和农业自动化，我们也需要具有语义注释的数据集。因此，我们介绍了 WildScenes，一个双模态基准数据集，其中包括自然环境下多个大规模遍历，包括高分辨率 2D 图像和密集 3D 激光雷达点云的语义注释，以及准确的 6 自由度姿态信息。我们的 3D 语义标签通过一种高效的自动化过程得到，该过程将多视角中的人工标注 2D 标签转移到 3D 点云中，从而避免了在 3D 中进行昂贵和耗时的人工注释。我们引入了关于 2D 和 3D 语义分割的基准，并评估了各种最新的深度学习技术，以展示在自然环境中语义分割中的挑战。我们提出了供标准基准和域自适应基准使用的训练 - 验证 - 测试划分，并利用一种自动划分生成技术来确保类别标签分布的平衡。该数据集、评估脚本和预训练模型将在接受之后发布于该 URL。

Dec, 2023

只利用 2D 图像监督学习 3D 语义分割

本文提出了一种基于 2D 图像标注来训练 3D 语义分割模型的方法，使用多视角融合来生成伪标签，并解决了选择可信的伪标签、较少目标分类、在训练过程中如何脱离 2D 图像等问题。实验结果表明，所提出的 2D3DNet 网络在一个新的城市数据集上的表现显著优于基线方法。

Oct, 2021

深度投影三维语义分割

本文提出了一种基于 2D-CNN 和多模态网络架构的点云语义分割方法，将点云数据投影到 2D 平面，避免了 3D-CNN 方法中立方体体素化降低空间分辨率和增加内存消耗的限制，并在 Semantic3D 数据集上达到了相对增益 7.9％的最新最佳结果。

May, 2017

有限训练数据的语义分割

介绍了在混乱场景中进行机器人感知的方法，在 Amazon 机器人挑战赛中获得胜利。作者提出了两种策略：一种是基于深度度量学习的方法，另一种是基于全监督语义分割方法的方法，并在数据集上进行了全面分析。两种方法都有良好效果，值得进一步研究。

Sep, 2017

基于基础模型的 3D 开放词汇分割

本研究利用预训练的 CLIP 和 DINO 模型的多模式知识和物体推理能力来解决三维开放式词汇分割的挑战。通过优化神经辐射场 (NeRF) 并引入相应的损失函数，本研究在无需进行微调的情况下，以开放式视觉和文本知识为先验知识，从 2D 特征中提取出 3D 分割特征。通过实验验证，本研究所提出的方法在无需分割注释的情况下，甚至优于完全监督的分割模型训练，表明三维开放式词汇分割可以有效地从 2D 图像和文本图像对中学到。

May, 2023

ScanNet: 室内场景丰富注释的 3D 重建

本文介绍了 ScanNet 数据集的构建，该数据集包含 2.5M 的视图和 1513 个场景，提供了 3D 摄像机姿势、表面重构和语义分割等信息，并表明使用此数据集可以在 3D 场景理解任务中实现最先进的性能。

Feb, 2017

当三维语义分割面临类别不平衡和 OOD 数据时的挑战理解

本研究旨在探讨类别不平衡问题对三维语义分割的影响及其对应的解决方案，包括数据增强方法的提出与实验、信任度评分算法的应用等，研究结果表明类别不平衡、类间歧义性和类内差异性是三维语义分割面临的主要挑战，相关算法的可靠性也需要进一步提高来满足实际应用需求。

Mar, 2022

PLA: 基于自然语言的开放词汇三维场景理解

通过对具有语义丰富标题的多视图图像进行记录，来设计分层三维标题对，使用对比学习，学习与图像相连的语言感知嵌入，并在开放词汇语义和实例分割方面表现出卓越的性能，具有鲁棒的可迁移性。

Nov, 2022