跨越领域鸿沟：基于基础模型的自监督三维场景理解

May, 2023

跨越领域鸿沟：基于基础模型的自监督三维场景理解

Bridging the Domain Gap: Self-Supervised 3D Scene Understanding with Foundation Models

Zhimin Chen, Bing Li

TL;DR该论文介绍了一种名为 Bridge3D 的创新方法，通过预训练使用基础模型的特征、语义掩码和说明来预训练 3D 模型，从而增强 3D 场景表示学习，包括使用基础模型的语义掩码来指导掩码和重建过程。此外，作者还介绍了一种新方法，使用基础模型生成高精度的物体级掩码和语义文本信息，进一步促进基础 2D 和文本表示向 3D 模型的知识转移。该方法在 3D 对象检测和语义分割任务中优于现有的最先进方法，在 ScanNet 数据集上的最佳结果超过之前的最优方法 PiMAE 5.3%。

Abstract

foundation models have made significant strides in 2D and language tasks such as image segmentation, object detection, and visual-language understanding. Nevertheless, their potential to enhance 3d scene representation

foundation models 3d scene representation learning masked autoencoder object-level masks semantic text information

发现论文，激发创造

PonderV2：铺设通向通用预训练范式的 3D 基础模型之路

通过可微分神经渲染，我们提出了一个新的通用方法来学习点云表示，实现了 3D 和 2D 之间的无缝集成，并在室内和室外场景中的多个任务中实现了卓越的性能和持续改进。

Oct, 2023

构建通用 3D 大规模感知强预训练基准

通过构建一个 CSC 框架，我们综合使用视觉基础模型提供的语义线索和多模态信息的知识丰富的跨场景原型，实现了一种具有各种下游任务的更少微调工作量的通用 3D 预训练模型。

May, 2024

探究视觉基础模型的三维认知能力

最近大规模预训练的进步提供了具有强大功能的视觉基础模型。我们分析了视觉基础模型的三维感知能力，并通过一系列实验揭示了当前模型的几个局限性。

Apr, 2024

Mask3D：通过学习掩码的 3D 先验知识预训练 2D 视觉 Transformer

提出了一种名为 Mask3D 的预训练方法，可以将现有的大规模 RGB-D 数据应用于自监督预训练中，将 3D 先验嵌入到 2D 的学习特征中，并对多个场景理解任务产生了改进，尤其是语义分割。

Feb, 2023

利用大规模预训练视觉基础模型进行高效标签的 3D 点云分割

通过采用大规模预训练模型、计算机视觉和 2D 任务，本研究提出了一种新的框架来解决 3D 点云分割任务，通过将 2D 语义分割预测投影到 3D 空间，并引入语义标签融合策略，实现了在扩展的数据集上的 3D 场景理解。

Nov, 2023

基于基础模型的 3D 开放词汇分割

本研究利用预训练的 CLIP 和 DINO 模型的多模式知识和物体推理能力来解决三维开放式词汇分割的挑战。通过优化神经辐射场 (NeRF) 并引入相应的损失函数，本研究在无需进行微调的情况下，以开放式视觉和文本知识为先验知识，从 2D 特征中提取出 3D 分割特征。通过实验验证，本研究所提出的方法在无需分割注释的情况下，甚至优于完全监督的分割模型训练，表明三维开放式词汇分割可以有效地从 2D 图像和文本图像对中学到。

May, 2023

跨视角和跨姿态的人体三维理解

提出了一种基于自监督学习的预训练方法，使用仅图像的人类中心数据对模型进行训练，通过学习关于 3D 和人体运动的先验知识，在一系列人体相关任务中优于现有的自监督预训练方法，并在模型基于和不基于模型的人体网格重建的精调任务上达到了最先进的性能。

Nov, 2023

FM-OV3D：面向开放词汇的基于基础模型的跨模态知识融合的 3D 目标检测

基于各种基础模型的跨模态知识融合方法可以提高 3D 模型的开放性词汇能力，并成功实现了在开放性 3D 目标检测任务中领先的性能。

Dec, 2023

通过层次特征对齐预训练和区域感知微调的通用标签高效三维场景解析

通过使用预先训练的视觉 - 语言模型和无监督的区域级语义对比学习方案，本研究提出了一种通用且简单的框架，用于处理有限标记情况下的 3D 场景理解，从而在数据效率学习和开放世界少样本学习方面展现了有效性。

Dec, 2023

M$^{3}$3D：使用多模态掩蔽自编码器学习 2D 图像和视频的 3D 先验

提出了一种名为 M$^{3}$3D 的新的预训练策略，该策略基于基于多模态遮蔽自编码器，可以利用三维先验和学习的跨模态表示，以增强颜色 - 深度数据之间的对应关系，并能在各种下游任务中提高性能。

Sep, 2023