OpenSUN3D:关于开放词汇的三维场景理解的第一次研讨会挑战
使用 OpenScene 和 zero-shot 方法,借助于 CLIP 特征空间将 3D 场景中的点嵌入到文本和图像像素中,以达到不确定性的训练和开放词汇量的查询场景的目的。
Nov, 2022
本文提出了一种统一的多模态三维开放词汇场景理解网络 (UniM-OV3D),通过对齐点云、图像、语言和深度信息,设计了一个分层点云特征提取模块并使用了层次化三维标题对来提高粗到细点云语义表示学习,实验结果表明我们的方法在室内外基准测试中实现了开放式语义和实例分割的最先进性能。
Jan, 2024
OV-SAM3D 是一个通用框架,用于不需要训练即可理解任何 3D 场景的开放词汇三维场景理解,通过使用 Segment Anything Model (SAM) 生成超点并通过 Recognize Anything Model (RAM) 的开放标签和操作表,结合超点和分割掩模生成最终的 3D 实例,经过对 ScanNet200 和 nuScenes 数据集的实证评估,我们的方法在未知的开放世界环境中超越了现有的开放词汇方法。
May, 2024
通过对具有语义丰富标题的多视图图像进行记录,来设计分层三维标题对,使用对比学习,学习与图像相连的语言感知嵌入,并在开放词汇语义和实例分割方面表现出卓越的性能,具有鲁棒的可迁移性。
Nov, 2022
我们提出了 OpenOcc,一种将 3D 场景重建和开放词汇理解与神经辐射场结合的新型框架。通过占位表示法对场景的几何结构进行建模,并通过体素渲染将预训练的开放词汇模型蒸馏为 3D 语言场,以实现零 - shot 推理。此外,我们提出了一种新颖的语义感知置信度传播(SCP)方法,以缓解由于蒸馏特征中不一致测量而引起的语言场表示退化问题。实验证明,我们的方法在 3D 场景理解任务中取得了有竞争力的性能,特别是对于小物体和长尾物体。
Mar, 2024
我们描述了一种预测开放词汇的 3D 语义体素占用图的方法,该方法可实现对自由形式语言查询进行 3D 定位、分割和检索。我们设计了一种新的模型架构,包括 2D-3D 编码器、占用预测和 3D 语言头;开发了一种三模态自监督学习算法,利用图像、语言和 LiDAR 点云三种模态来训练所提出的架构;并在几个开放词汇任务上定量展示了所提出模型的优势。
Jan, 2024
我们介绍了一种开放词汇的 3D 场景图(OVSG),它是一个形式化的框架,用于将各种实体,如物体实例、代理和区域,与自由文本查询进行关联。与传统的基于语义的物体定位方法不同,我们的系统支持上下文感知的实体定位,允许查询,如 ' 在厨房桌子上拿起一个杯子 ' 或' 导航到一个有人坐在上面的沙发 '。与现有的 3D 场景图研究相比,OVSG 支持自由文本输入和开放词汇查询。通过使用 ScanNet 数据集和自采集数据集进行的一系列比较实验证明,我们提出的方法明显超越了以前基于语义的定位技术的性能。此外,我们突出了 OVSG 在真实世界的机器人导航和操作实验中的实际应用。
Sep, 2023
通过分析参与者提交的方法和解决方案,我们旨在激励巨大词汇和开放词汇目标检测领域的未来研究方向,推动该领域的进展。
Jun, 2024
本文系统地总结介绍了低成本稳定的 2.5/3D 视觉感知器件在计算机视觉领域中如何应用于室内环境中的视觉场景理解,包括数据表示,核心技术,场景理解任务,性能评价以及面临的挑战。
Mar, 2018
本研究介绍了一种开放词汇的 3D 实例分割任务,使用零样本学习来提高模型在目标实例分割方面的泛化性,并设计了 OpenMask3D 方法,该方法使用预测的类别不可知的 3D 实例掩码来聚合每个掩码的特征,通过多视图融合和基于 CLIP 的图像嵌入来提高分割的性能。
Jun, 2023