LangSplat: 三维语言高斯污点

Dec, 2023

LangSplat: 3D Language Gaussian Splatting

Minghan Qin, Wanhua Li, Jiawei Zhou, Haoqian Wang, Hanspeter Pfister

TL;DRLangSplat构建了一个3D语言场，通过使用一组由CLIP鉴别的语言特征的3D高斯函数来表示，以支持3D空间内的高效开放词汇查询，相比于之前的方法，LangSplat具有更高的性能表现。

Abstract

Human lives in a 3D world and commonly uses natural language to interact with a 3D scene. Modeling a 3d language field to support open-ended language queries in 3D has gained increasing attention recently. This paper introduces →

发现论文，激发创造

图像和点云的语言基础的自底向上和自顶向下检测变压器

提出了一种语言引导的物体检测模型，使用底部和顶部的启发式信息来实现参考指称地面实体，同时获得了在流行的3D语言基础基准测试中的新的最先进的性能表现，与以前的技术相比显著提高。

Dec, 2021

Lowis3D: 基于语言驱动的开放世界实例级别3D场景理解

通过使用视觉-语言（VL）基础模型，将图像-文本对中的广义知识应用于3D场景的多视图图像以生成图像描述，在对象级别进行细粒度的视觉-语义表示学习，并通过使用无标签数据上的伪监督训练对象分组模块以解决开放世界环境中的类别定位问题，从而在3D语义、实例和全景分割任务中获得显著的改进。

Aug, 2023

嵌入式语言的三维高斯函数用于开放词汇场景理解

通过使用一种新颖的场景表示方法——嵌入语言的3D高斯模型，本研究在3D空间中实现了开放词汇查询任务，取得了最佳的视觉质量和语言查询准确性，并且保持在单个台式GPU上的实时渲染帧速率。

Nov, 2023

SceneVerse：面向基于场景的三维视觉语言学习的规模化

通过系统性地将3D视觉语言学习在室内环境中进行有序提升，本研究旨在解决3D视觉语言面临的三个主要挑战，包括复杂的3D场景、缺乏数据支持和缺乏统一的学习框架，并通过引入包含约68K个3D室内场景的场景语料库SceneVerse以及基于可扩展的场景图生成方法获取的约2.5M个视觉语言对，展示了Grounded Pre-training for Scenes (GPS)的有效性，通过在所有现有的3D视觉定位基准上取得了最先进的性能，并在具有挑战性的3D视觉语言任务的零样本迁移实验中揭示了SceneVerse和GPS的巨大潜力。

Jan, 2024

语义高斯：基于3D高斯点云绘制的开放词汇场景理解

基于3D高斯喷斑的新型开放词汇场景理解方法，通过提取预训练的2D语义学习特征，将其融入3D高斯成分，并构建3D高斯语义网络用于快速推断，实现了在ScanNet-20上对语义分割的改进、对物体部分分割、场景编辑以及时空分割的多样性支持和优越性。

Mar, 2024

统一场景表示和重建用于三维大型语言模型

本研究通过引入Uni3DR^2提取3D几何和语义感知表示特征的统一场景表示和重建框架，证明了该框架对于大型语言模型在3D场景中的重要性，并在多个实验中取得了令人信服的结果。

Apr, 2024

使用可优化的开放词汇语义空间超平面找到感兴趣的三维高斯函数

通过在 3D 空间中解释和定位特定区域，GOI 整合了来自 2D 视觉-语言基础模型的语义特征，利用可优化的语义空间超平面识别感兴趣的 3D 高斯。通过在特性空间内进行超平面划分的特征选择过程，GOI 方法通过微调语义空间超平面，实现了开放式词汇查询的精准定位。大量实验证明了 GOI 方法相对于之前的最先进方法的优越性。

May, 2024

重新思考3D空间中辐射场的开放词汇分割

本研究解决了以往方法在3D语义理解上的不足，提出直接监督3D点来训练语言嵌入场，实现了不依赖多尺度语言嵌入的最先进精度。此外，研究首次实现了在实时渲染速度下将预训练的语言场转移到3DGS，标志着训练时间和精度的平衡。通过引入3D查询与评估协议，本研究为重建几何体和语义的评估提供了新框架。

Aug, 2024

重新思考3D空间中辐射场的开放词汇分割

本研究解决了之前方法在3D语义理解中的局限性，提出了一种通过直接监督3D点来训练语言嵌入场的创新方法，达到了最先进的准确度。此外，本研究首次实现了在保持训练时间和准确度的情况下，将预训练的语言场转移到3DGS上，从而实现实时渲染。最终引入的3D查询与评估协议为重建几何体和语义提供了新的评估标准。

Aug, 2024

OpenScan：通用开放词汇3D场景理解基准

本研究解决了现有3D场景理解方法未能充分评估开放词汇问题的缺陷，特别是在对象类以外的领域。提出了一个新颖的任务，即广义开放词汇3D场景理解(GOV-3D)，并贡献了基准OpenScan，涵盖多个细粒度对象属性。研究发现，现有方法在应对GOV-3D任务中的抽象词汇方面存在显著困难，强调了现有方法的局限性并探讨了克服这些短板的方向。

Aug, 2024