通过层次特征对齐预训练和区域感知微调的通用标签高效三维场景解析

Dec, 2023

通过层次特征对齐预训练和区域感知微调的通用标签高效三维场景解析

Generalized Label-Efficient 3D Scene Parsing via Hierarchical Feature Aligned Pre-Training and Region-Aware Fine-tuning

Kangcheng Liu, Yong-Jin Liu, Kai Tang, Ming Liu, Baoquan Chen

TL;DR通过使用预先训练的视觉 - 语言模型和无监督的区域级语义对比学习方案，本研究提出了一种通用且简单的框架，用于处理有限标记情况下的 3D 场景理解，从而在数据效率学习和开放世界少样本学习方面展现了有效性。

Abstract

Deep neural network models have achieved remarkable progress in 3D scene understanding while trained in the closed-set setting and with full labels. However, the major bottleneck for current 3D recognition approaches is that they do not have the capacity to recognize any unseen

3d scene understanding closed-set setting novel classes pre-trained vision-language models unsupervised region-level semantic contrastive learning

发现论文，激发创造

基于传统 / 学习式三维描述符的高效数据三维场景解析的综述与鲁棒性框架

在标签有限的情况下，本文提出了一种通用而简单的框架来解决点云理解问题，利用传统和学习到的 3D 描述符进行方法比较，并提出了基于亲和性的学习区域合并策略，该方法在各种实验设置下优于现有方法，无需复杂的学习策略。

Dec, 2023

一种用于机器人大规模 LiDAR 场景解析的高效框架

本文介绍了一种在有限标签情况下解决点云理解问题的通用简单框架，通过无监督区域扩展的聚类方法生成聚类，并结合地理特征相似性和语义特征相似性在弱标签监督下学习合并过度细分的聚类，以及自监督重建和数据增强优化模块引导标签在场景中语义相似点之间的传播。实验证明，该框架在大规模 3D 语义场景解析的数据效率设置下，在语义分割、实例分割和目标检测等三个重要弱监督点云理解任务中表现最佳，所开发技术还具有对机器人操作和自主导航中的下游任务提供更好表示的潜力。代码和模型可在链接处公开获取。

Dec, 2023

PLA: 基于自然语言的开放词汇三维场景理解

通过对具有语义丰富标题的多视图图像进行记录，来设计分层三维标题对，使用对比学习，学习与图像相连的语言感知嵌入，并在开放词汇语义和实例分割方面表现出卓越的性能，具有鲁棒的可迁移性。

Nov, 2022

构建通用 3D 大规模感知强预训练基准

通过构建一个 CSC 框架，我们综合使用视觉基础模型提供的语义线索和多模态信息的知识丰富的跨场景原型，实现了一种具有各种下游任务的更少微调工作量的通用 3D 预训练模型。

May, 2024

GNeSF：泛化的神经语义场

基于神经隐式表示的 3D 场景分割方法，通过多视图图像特征和语义地图作为输入，采用软投票机制来聚合来自不同视图的二维语义信息，结合视角差异信息预测投票分数，通过可见性模块筛选掉遮挡视图的有害信息，在只有二维语义监督的情况下，能够综合合成语义地图或进行新场景的三维语义分割。

Oct, 2023

基于语言辅助的三维特征学习，用于语义场景理解

通过文本场景描述信息辅助 3D 特征学习，进而提升三维语义场景理解的效果，并构建更好的语言与三维结构的多模态任务。

Nov, 2022

Lowis3D: 基于语言驱动的开放世界实例级别 3D 场景理解

通过使用视觉 - 语言（VL）基础模型，将图像 - 文本对中的广义知识应用于 3D 场景的多视图图像以生成图像描述，在对象级别进行细粒度的视觉 - 语义表示学习，并通过使用无标签数据上的伪监督训练对象分组模块以解决开放世界环境中的类别定位问题，从而在 3D 语义、实例和全景分割任务中获得显著的改进。

Aug, 2023

PointContrast: 无监督预训练 3D 点云理解

本研究旨在促进 3D 深度学习表示学习的研究，重点关注高级场景理解任务，使用统一的三元组架构、源数据集和对比损失进行无监督预训练，对室内和室外、真实和合成数据集的 6 个不同基准进行分割和检测，取得了鼓舞性的结果，表明学习到的表示可以在不同领域推广使用，并且与监督的预训练的改善程度相似，建议未来的努力应该更加注重扩充数据收集而非详细标注。

Jul, 2020

提升数据高效三维场景理解的表示学习的泛化能力

通过利用生成贝叶斯网络产生具有真实世界模式的多样化合成场景，并通过联合学习粗到精的对比学习任务和遮挡感知重建任务，我们提出了可泛化的表示学习（GRL）方法，从而为三维场景的理解提供了可传递、几何信息化的表示。在合成数据的预训练之后，我们的模型的所掌握的知识可以通过真实世界基准数据集实现无缝传递到与三维场景理解相关的两个主要下游任务，即三维物体检测和三维语义分割，并通过详尽系列的实验证明了我们方法相对于现有最新预训练方法的持续优势。

Jun, 2024

使用对比场景语境探索数据高效的三维场景理解

本文提出一种基于对比场景上下文的三维预训练方法，在数据量和标注不足时实现了全面标注的近乎完全的实例分割和语义分割。

Dec, 2020