嵌入式语言的三维高斯函数用于开放词汇场景理解
通过对具有语义丰富标题的多视图图像进行记录,来设计分层三维标题对,使用对比学习,学习与图像相连的语言感知嵌入,并在开放词汇语义和实例分割方面表现出卓越的性能,具有鲁棒的可迁移性。
Nov, 2022
通过使用视觉-语言(VL)基础模型,将图像-文本对中的广义知识应用于3D场景的多视图图像以生成图像描述,在对象级别进行细粒度的视觉-语义表示学习,并通过使用无标签数据上的伪监督训练对象分组模块以解决开放世界环境中的类别定位问题,从而在3D语义、实例和全景分割任务中获得显著的改进。
Aug, 2023
LangSplat构建了一个3D语言场,通过使用一组由CLIP鉴别的语言特征的3D高斯函数来表示,以支持3D空间内的高效开放词汇查询,相比于之前的方法,LangSplat具有更高的性能表现。
Dec, 2023
基于3D高斯喷斑的新型开放词汇场景理解方法,通过提取预训练的2D语义学习特征,将其融入3D高斯成分,并构建3D高斯语义网络用于快速推断,实现了在ScanNet-20上对语义分割的改进、对物体部分分割、场景编辑以及时空分割的多样性支持和优越性。
Mar, 2024
本研究通过引入Uni3DR^2提取3D几何和语义感知表示特征的统一场景表示和重建框架,证明了该框架对于大型语言模型在3D场景中的重要性,并在多个实验中取得了令人信服的结果。
Apr, 2024
本文提出了名为TIGER的一种系统方法,用于一致的文本指导下的3D高斯检索和编辑,通过采用自底向上的语言聚合策略来生成支持开放词汇检索的更密集的语言嵌入的3D高斯场景,并通过聚合2D图像编辑扩散模型和多视图扩散模型的一致性得分蒸馏(Coherent Score Distillation),实现更一致、更真实的编辑效果。
May, 2024
通过在 3D 空间中解释和定位特定区域,GOI 整合了来自 2D 视觉-语言基础模型的语义特征,利用可优化的语义空间超平面识别感兴趣的 3D 高斯。通过在特性空间内进行超平面划分的特征选择过程,GOI 方法通过微调语义空间超平面,实现了开放式词汇查询的精准定位。大量实验证明了 GOI 方法相对于之前的最先进方法的优越性。
May, 2024
这篇论文介绍了OpenGaussian,一种基于3D高斯散射(3DGS)的方法,能够实现3D点级别的开放性词汇理解。通过使用SAM掩码和具有3D一致性的实例特征训练以及引入实例级别的3D-2D特征关联方法,该方法成功地实现了3D对象选择和理解。
Jun, 2024
本研究解决了现有3D场景理解方法未能充分评估开放词汇问题的缺陷,特别是在对象类以外的领域。提出了一个新颖的任务,即广义开放词汇3D场景理解(GOV-3D),并贡献了基准OpenScan,涵盖多个细粒度对象属性。研究发现,现有方法在应对GOV-3D任务中的抽象词汇方面存在显著困难,强调了现有方法的局限性并探讨了克服这些短板的方向。
Aug, 2024
本研究针对复杂3D场景理解中的场景编码策略问题,探讨了不同视觉编码模型在多种场景下的优缺点。研究发现,DINOv2表现优异,视频模型在对象级任务中表现突出,而扩散模型在几何任务上表现良好,并指出语言预训练模型在语言相关任务中存在意外局限。这些发现推动了对视觉基础模型的重新思考,并强调了未来在视觉语言和场景理解任务中灵活选择编码器的必要性。
Sep, 2024