Search3D:分层开放词汇3D分割
使用OpenScene和zero-shot方法,借助于CLIP特征空间将3D场景中的点嵌入到文本和图像像素中,以达到不确定性的训练和开放词汇量的查询场景的目的。
Nov, 2022
本研究利用预训练的 CLIP 和 DINO 模型的多模式知识和物体推理能力来解决三维开放式词汇分割的挑战。通过优化神经辐射场 (NeRF) 并引入相应的损失函数,本研究在无需进行微调的情况下,以开放式视觉和文本知识为先验知识,从2D特征中提取出3D分割特征。通过实验验证,本研究所提出的方法在无需分割注释的情况下,甚至优于完全监督的分割模型训练,表明三维开放式词汇分割可以有效地从2D图像和文本图像对中学到。
May, 2023
本研究介绍了一种开放词汇的3D实例分割任务,使用零样本学习来提高模型在目标实例分割方面的泛化性,并设计了OpenMask3D方法,该方法使用预测的类别不可知的3D实例掩码来聚合每个掩码的特征,通过多视图融合和基于CLIP的图像嵌入来提高分割的性能。
Jun, 2023
通过使用视觉-语言(VL)基础模型,将图像-文本对中的广义知识应用于3D场景的多视图图像以生成图像描述,在对象级别进行细粒度的视觉-语义表示学习,并通过使用无标签数据上的伪监督训练对象分组模块以解决开放世界环境中的类别定位问题,从而在3D语义、实例和全景分割任务中获得显著的改进。
Aug, 2023
OpenIns3D是一个不需要2D图像输入的用于实例级别的三维开放词汇场景理解的全新框架,通过Mask-Snap-Lookup方案实现,能够在室内和室外的广泛数据集上取得优越的结果,并支持无需重新训练即可切换2D检测器的功能。
Sep, 2023
Open3DIS是对3D场景中开放词汇实例分割问题的一种新解决方案,通过聚合帧间的2D实例掩码并将其映射到几何连贯的点云区域作为高质量的对象提案,与3D非特定类实例提案相结合,能够在真实世界的广泛对象中实现显著的性能提升。
Dec, 2023
SAI3D是一种新颖的零样本三维实例分割方法,通过整合来自Segment Anything Model (SAM)的几何先验和语义线索,将三维场景划分为几何原语,然后逐步合并为与多视角SAM掩码一致的三维实例分割。通过具有动态阈值机制的分层区域增长算法,进一步提升细粒度三维场景解析的鲁棒性。在Scan-Net和更具挑战性的ScanNet++数据集上进行的实证评估表明,我们的方法优于现有的开放词汇基准线,并在ScanNet++上的类别不可知分割中甚至超过了全监督方法。
Dec, 2023
OV-SAM3D是一个通用框架,用于不需要训练即可理解任何3D场景的开放词汇三维场景理解,通过使用Segment Anything Model (SAM)生成超点并通过Recognize Anything Model (RAM)的开放标签和操作表,结合超点和分割掩模生成最终的3D实例,经过对ScanNet200和nuScenes数据集的实证评估,我们的方法在未知的开放世界环境中超越了现有的开放词汇方法。
May, 2024
这篇论文介绍了一种基于零样本推理的3D分割新任务,以搜索和定位物体的部件为目标,它超越了先前的类别特定3D语义分割、3D实例分割和开放词汇3D分割的限制。我们设计了一个简单的基线方法,Reasoning3D,能够理解和执行复杂的命令,对具有上下文感知和推理答案的3D网格进行(细粒度的)特定部分分割。该方法利用现成的预训练二维分割网络,由大型语言模型(LLMs)支持,在零样本的方式下解释用户的输入查询。我们的方法具有泛化性,能够根据隐含的文本查询有效地定位和突出显示3D对象的部分,包括这些组成部分的3D对象和真实世界的扫描数据。此外,我们的无训练方法可实现快速部署,并成为未来研究中关于部件级3D(语义)对象理解的可行通用基线,在包括机器人学、物体操作、部件装配、自动驾驶应用、增强现实和虚拟现实(AR/VR)以及医疗应用等各个领域发挥作用。该论文提供了代码、模型权重、部署指南和评估协议。
May, 2024
本研究解决了现有3D场景理解方法未能充分评估开放词汇问题的缺陷,特别是在对象类以外的领域。提出了一个新颖的任务,即广义开放词汇3D场景理解(GOV-3D),并贡献了基准OpenScan,涵盖多个细粒度对象属性。研究发现,现有方法在应对GOV-3D任务中的抽象词汇方面存在显著困难,强调了现有方法的局限性并探讨了克服这些短板的方向。
Aug, 2024