语义抽象:从 2D 视觉语言模型实现开放式三维场景理解
使用 OpenScene 和 zero-shot 方法,借助于 CLIP 特征空间将 3D 场景中的点嵌入到文本和图像像素中,以达到不确定性的训练和开放词汇量的查询场景的目的。
Nov, 2022
通过使用视觉 - 语言(VL)基础模型,将图像 - 文本对中的广义知识应用于 3D 场景的多视图图像以生成图像描述,在对象级别进行细粒度的视觉 - 语义表示学习,并通过使用无标签数据上的伪监督训练对象分组模块以解决开放世界环境中的类别定位问题,从而在 3D 语义、实例和全景分割任务中获得显著的改进。
Aug, 2023
人类善于形成心理地图以理解物体关系和通过语言查询导航;此论文通过提出基于 3D 的实例级方法提高语言引导任务的成功率,并在定量和定性结果上获得显著改善。
Apr, 2024
为了使机器人能够执行各种任务,本研究提出了一种名为 ConceptGraphs 的基于图结构的 3D 场景表示方法,通过将 2D 基本模型的输出与多视图关联相结合,不需要收集大型 3D 数据集或微调模型即可实现对新的语义类进行泛化推理,并通过一些需要对空间和语义概念进行复杂推理的后续规划任务来证明这种表示方法的实用性。
Sep, 2023
通过对具有语义丰富标题的多视图图像进行记录,来设计分层三维标题对,使用对比学习,学习与图像相连的语言感知嵌入,并在开放词汇语义和实例分割方面表现出卓越的性能,具有鲁棒的可迁移性。
Nov, 2022
OV-SAM3D 是一个通用框架,用于不需要训练即可理解任何 3D 场景的开放词汇三维场景理解,通过使用 Segment Anything Model (SAM) 生成超点并通过 Recognize Anything Model (RAM) 的开放标签和操作表,结合超点和分割掩模生成最终的 3D 实例,经过对 ScanNet200 和 nuScenes 数据集的实证评估,我们的方法在未知的开放世界环境中超越了现有的开放词汇方法。
May, 2024
该论文提出了一种基于联合三维几何和语义理解的新方法来解决计算机视觉中困难的视觉定位问题,该方法使用生成模型进行描述符学习,并在语义场景补全作为辅助任务进行训练,以使得生成的三维描述符具有鲁棒性,并能够实现在极端视角,光照和几何变化下的可靠定位。
Dec, 2017
在未知和动态环境中,建立并理解空间语义上下文的移动机器人操作任务通过零样本检测和基于视觉 - 语言模型的密集三维实体重建,利用大型语言模型进行空间区域抽象和在线规划,并通过演示在实际机器人实验中取得较高的导航和任务成功率以及基线模型相比更好的成功率和性能,证明了这种新的框架的有效性。
Jun, 2024
我们提出了潜在的组合语义嵌入 z * 作为查询空间语义记忆的基于学习的知识表示,并且证明了 z * 可以通过梯度下降的迭代优化被发现。我们通过实验证明了 z * 能够表示由 SBERT 编码的多达 10 个语义和理想均匀分布的高维嵌入的多达 100 个语义,同时展示了在 COCO-Stuff 数据集上针对 181 个重叠语义,经过密集 VLM 训练的 z * 具有 42.23 的 mIoU,相比于流行的 SOTA 模型改进了 3.48 的 mIoU 的传统非重叠开放词汇分割性能。
Oct, 2023
通过结合语言模型 (vision-language models)、分割模型和抓取综合模型,提出了一个能够在任何场景中理解、规划和执行物体抓取的开放世界抓取系统 (OWG),通过视觉提示机制,借助于开放式自由语言的引导实现零样本应用,展示了该系统在杂乱室内场景数据集和仿真环境、硬件实验中相对于以往的有监督和零样本语言模型方法具有优越性能。
Jun, 2024