Space - 语言模型用于 3D 视觉基础
本文介绍了一个新的推理任务,旨在针对三维对象的视觉和非视觉语言,并介绍了用于区分对象的几种 CLIP 模型。虽然最近在联合建模视觉和语言方面取得了进展,但这些基于图像的模型仍然对对象的三维性质了解不足,此文发现,将视图估计添加到语言引理模型可以提高准确性。
Jul, 2021
在本研究中,我们提出了基于 3D 大型多模型(3D LMM)的 Grounded 3D-LLM 模型,在一个统一生成框架中探索了 3D 场景理解的潜力,通过使用场景引用标记作为特殊名词短语来参考 3D 场景,将 3D 视觉任务转化为语言格式,从而实现了处理交替 3D 和文本数据序列的自然方法,并采用对应标签引导语句建立了大规模的基于含意场景的语言数据集,进一步引入了对比性语言场景预训练(CLASP)以有效利用这些数据,从而将 3D 视觉与语言模型相结合,通过在多个 3D 基准测试上进行全面评估,我们展示了 Grounded 3D-LLM 的领先性能和广泛适用性。
May, 2024
LLM-Grounder 是一种零样本、开放词汇量的基于大型语言模型(LLM)的 3D 视觉定位流水线。通过将复杂自然语言查询拆解为语义元素,并利用可视化定位工具识别 3D 场景中的对象,LLM-Grounder 评估所提议对象之间的空间和常识关系,从而做出最终的定位决策。该方法不需要有标签的培训数据,可应用于新型 3D 场景和任意文本查询,显示出最先进的零样本定位准确性。研究结果表明,LLM 显著提高了定位能力,尤其对于复杂语言查询,在机器人的 3D 视觉语言任务中,LLM-Grounder 是一种有效的方法。
Sep, 2023
本文提出了一个在模拟环境中进行空间推理的模型,使用强化学习和广义值迭代方法进行训练,取得了目标定位误差减少 45% 的成果。模型以指令文本为引导,学习世界的表示,对语言和环境进行联合推理,实现了本地邻域与对应词汇的精准对齐,同时处理指令中的全局参照。
Jul, 2017
本研究提出了一种基于自然语言描述和多模式视觉数据的大规模动态场景的 3D 视觉定位任务的方法,并且通过利用图像的外观特征、点云中的位置和几何特征以及连续输入帧中的动态特征,匹配语言中的语义特征。我们提出了两个新的数据集,STRefer 和 LifeRefer,这些数据集对于野外 3D 视觉定位的研究具有重要意义,并且有着提升自动驾驶和服务机器人发展的巨大潜力。广泛的比较和消融研究证明,我们的方法在两个提出的数据集上实现了最先进的性能。
Apr, 2023
提出结合语言表述和三维可视化的方法,通过生成模型和检测模型等工具,可以从图像中推理出三维可视特征图,并进一步实现语言方面的任务,如检测引用表达和物体放置策略。这种方法可以更好地进行全景视角和空间推理。
Oct, 2019
利用大规模视觉语言模型评估其在不同视觉推理任务中的性能,特别是在理解空间关系方面的能力的研究。通过细粒度的组合性先验来解决空间关系推理任务的评估和排名,结合物体及其位置的核心语义来计算空间子句的最终评分,并比较不同视觉语言模型在空间关系推理方面的能力。
Aug, 2023
探讨使用大量语言模型来实现场景理解的常识;介绍了三种利用语言对包含对象的室内环境进行分类的范例:(i)零样本方法,(ii)前馈分类器方法和(iii)对比分类器方法,在现代空间感知系统生成的 3D 场景图上进行操作,并通过分析每种途径,展示了显着的零样本泛化和转移能力;最后,展示了这些方法也适用于推断包含房间的建筑标签,并在真实环境中展示了零样本方法。
Sep, 2022
我们介绍了使用自然语言描述来定位现实世界 3D 场景中多个对象的任务。我们提出了 Multi3DRefer,扩展了 ScanRefer 数据集和任务,并引入了新的评估指标和基准方法以进一步研究多模态 3D 场景理解。此外,我们利用 CLIP 的 2D 特征和对比学习在线渲染对象提案,构建了更好的基准线,该基准线在 ScanRefer 基准测试上超越了最新技术。
Sep, 2023
本研究提出了通过自然语言描述在 RGB-D 扫描中进行 3D 对象定位的方法 ScanRefer,使用 3D 对象提取和编码的句子嵌入来学习融合描述符,将语言表达与几何特征进行相关性建模,可以实现目标对象的 3D 边界框的回归。同时还构建了 ScanRefer 数据集,包含来自 800 个 ScanNet 场景的 11,046 个对象的 51,583 个描述。这是第一个通过自然语言直接在 3D 中执行对象定位的大规模尝试。
Dec, 2019