LangSplat: 三维语言高斯污点
提出了一种语言引导的物体检测模型,使用底部和顶部的启发式信息来实现参考指称地面实体,同时获得了在流行的3D语言基础基准测试中的新的最先进的性能表现,与以前的技术相比显著提高。
Dec, 2021
通过使用视觉-语言(VL)基础模型,将图像-文本对中的广义知识应用于3D场景的多视图图像以生成图像描述,在对象级别进行细粒度的视觉-语义表示学习,并通过使用无标签数据上的伪监督训练对象分组模块以解决开放世界环境中的类别定位问题,从而在3D语义、实例和全景分割任务中获得显著的改进。
Aug, 2023
通过使用一种新颖的场景表示方法——嵌入语言的3D高斯模型,本研究在3D空间中实现了开放词汇查询任务,取得了最佳的视觉质量和语言查询准确性,并且保持在单个台式GPU上的实时渲染帧速率。
Nov, 2023
通过系统性地将3D视觉语言学习在室内环境中进行有序提升,本研究旨在解决3D视觉语言面临的三个主要挑战,包括复杂的3D场景、缺乏数据支持和缺乏统一的学习框架,并通过引入包含约68K个3D室内场景的场景语料库SceneVerse以及基于可扩展的场景图生成方法获取的约2.5M个视觉语言对,展示了Grounded Pre-training for Scenes (GPS)的有效性,通过在所有现有的3D视觉定位基准上取得了最先进的性能,并在具有挑战性的3D视觉语言任务的零样本迁移实验中揭示了SceneVerse和GPS的巨大潜力。
Jan, 2024
基于3D高斯喷斑的新型开放词汇场景理解方法,通过提取预训练的2D语义学习特征,将其融入3D高斯成分,并构建3D高斯语义网络用于快速推断,实现了在ScanNet-20上对语义分割的改进、对物体部分分割、场景编辑以及时空分割的多样性支持和优越性。
Mar, 2024
本研究通过引入Uni3DR^2提取3D几何和语义感知表示特征的统一场景表示和重建框架,证明了该框架对于大型语言模型在3D场景中的重要性,并在多个实验中取得了令人信服的结果。
Apr, 2024
通过在 3D 空间中解释和定位特定区域,GOI 整合了来自 2D 视觉-语言基础模型的语义特征,利用可优化的语义空间超平面识别感兴趣的 3D 高斯。通过在特性空间内进行超平面划分的特征选择过程,GOI 方法通过微调语义空间超平面,实现了开放式词汇查询的精准定位。大量实验证明了 GOI 方法相对于之前的最先进方法的优越性。
May, 2024
本研究解决了以往方法在3D语义理解上的不足,提出直接监督3D点来训练语言嵌入场,实现了不依赖多尺度语言嵌入的最先进精度。此外,研究首次实现了在实时渲染速度下将预训练的语言场转移到3DGS,标志着训练时间和精度的平衡。通过引入3D查询与评估协议,本研究为重建几何体和语义的评估提供了新框架。
Aug, 2024
本研究解决了之前方法在3D语义理解中的局限性,提出了一种通过直接监督3D点来训练语言嵌入场的创新方法,达到了最先进的准确度。此外,本研究首次实现了在保持训练时间和准确度的情况下,将预训练的语言场转移到3DGS上,从而实现实时渲染。最终引入的3D查询与评估协议为重建几何体和语义提供了新的评估标准。
Aug, 2024
本研究解决了现有3D场景理解方法未能充分评估开放词汇问题的缺陷,特别是在对象类以外的领域。提出了一个新颖的任务,即广义开放词汇3D场景理解(GOV-3D),并贡献了基准OpenScan,涵盖多个细粒度对象属性。研究发现,现有方法在应对GOV-3D任务中的抽象词汇方面存在显著困难,强调了现有方法的局限性并探讨了克服这些短板的方向。
Aug, 2024