Lexicon3D：探讨视觉基础模型在复杂3D场景理解中的应用

Sep, 2024

Lexicon3D：探讨视觉基础模型在复杂3D场景理解中的应用

Lexicon3D: Probing Visual Foundation Models for Complex 3D Scene Understanding

Yunze Man, Shuhong Zheng, Zhipeng Bao, Martial Hebert, Liang-Yan Gui...

TL;DR本研究针对复杂3D场景理解中的场景编码策略问题，探讨了不同视觉编码模型在多种场景下的优缺点。研究发现，DINOv2表现优异，视频模型在对象级任务中表现突出，而扩散模型在几何任务上表现良好，并指出语言预训练模型在语言相关任务中存在意外局限。这些发现推动了对视觉基础模型的重新思考，并强调了未来在视觉语言和场景理解任务中灵活选择编码器的必要性。

Abstract

Complex 3D Scene Understanding has gained increasing attention, with scene encoding strategies playing a crucial role in this success. However, the optimal scene encoding strategies for various scenarios remain unclear, particularly compared to their image-based counterparts. To addres

发现论文，激发创造

基于语言辅助的三维特征学习，用于语义场景理解

通过文本场景描述信息辅助 3D 特征学习，进而提升三维语义场景理解的效果，并构建更好的语言与三维结构的多模态任务。

Nov, 2022

PLA: 基于自然语言的开放词汇三维场景理解

通过对具有语义丰富标题的多视图图像进行记录，来设计分层三维标题对，使用对比学习，学习与图像相连的语言感知嵌入，并在开放词汇语义和实例分割方面表现出卓越的性能，具有鲁棒的可迁移性。

Nov, 2022

RegionPLC：区域点-语言对比学习用于开放世界3D场景理解

本文提出了一种开放式3D场景理解模型——RegionPLC，并通过对模型进行训练，使其具有开放词汇识别能力。采用密集视觉提示来引导从2D基本模型中提取区域级视觉语言知识，通过指针鉴别式对比学习，进一步使其实现从标题中对密集场景进行理解，最终在ScanNet、ScanNet200和nuScenes数据集上进行了详尽实验，实现的结果较之前的3D开放式场景理解方法有显著提升。

Apr, 2023

跨越领域鸿沟：基于基础模型的自监督三维场景理解

该论文介绍了一种名为 Bridge3D 的创新方法，通过预训练使用基础模型的特征、语义掩码和说明来预训练3D模型，从而增强3D场景表示学习，包括使用基础模型的语义掩码来指导掩码和重建过程。此外，作者还介绍了一种新方法，使用基础模型生成高精度的物体级掩码和语义文本信息，进一步促进基础2D和文本表示向3D模型的知识转移。该方法在3D对象检测和语义分割任务中优于现有的最先进方法，在ScanNet数据集上的最佳结果超过之前的最优方法PiMAE 5.3%。

May, 2023

嵌入式语言的三维高斯函数用于开放词汇场景理解

通过使用一种新颖的场景表示方法——嵌入语言的3D高斯模型，本研究在3D空间中实现了开放词汇查询任务，取得了最佳的视觉质量和语言查询准确性，并且保持在单个台式GPU上的实时渲染帧速率。

Nov, 2023

3DMIT: 3D多模态指导调整用于场景理解

我们构建了一个包含75K个指令-回答对的广泛数据集，针对3D场景进行了任务，如3D VQA、3D grounding和3D conversation，并引入了一种名为3DMIT的新颖且高效的提示调优范例，通过将3D空间信息整合到LLMs中，使其更好地理解3D世界。

Jan, 2024

SceneVerse：面向基于场景的三维视觉语言学习的规模化

通过系统性地将3D视觉语言学习在室内环境中进行有序提升，本研究旨在解决3D视觉语言面临的三个主要挑战，包括复杂的3D场景、缺乏数据支持和缺乏统一的学习框架，并通过引入包含约68K个3D室内场景的场景语料库SceneVerse以及基于可扩展的场景图生成方法获取的约2.5M个视觉语言对，展示了Grounded Pre-training for Scenes (GPS)的有效性，通过在所有现有的3D视觉定位基准上取得了最先进的性能，并在具有挑战性的3D视觉语言任务的零样本迁移实验中揭示了SceneVerse和GPS的巨大潜力。

Jan, 2024

探究视觉基础模型的三维认知能力

最近大规模预训练的进步提供了具有强大功能的视觉基础模型。我们分析了视觉基础模型的三维感知能力，并通过一系列实验揭示了当前模型的几个局限性。

Apr, 2024

统一场景表示和重建用于三维大型语言模型

本研究通过引入Uni3DR^2提取3D几何和语义感知表示特征的统一场景表示和重建框架，证明了该框架对于大型语言模型在3D场景中的重要性，并在多个实验中取得了令人信服的结果。

Apr, 2024

OpenScan：通用开放词汇3D场景理解基准

本研究解决了现有3D场景理解方法未能充分评估开放词汇问题的缺陷，特别是在对象类以外的领域。提出了一个新颖的任务，即广义开放词汇3D场景理解(GOV-3D)，并贡献了基准OpenScan，涵盖多个细粒度对象属性。研究发现，现有方法在应对GOV-3D任务中的抽象词汇方面存在显著困难，强调了现有方法的局限性并探讨了克服这些短板的方向。

Aug, 2024