三维物体语言基础
本文提出了一种方法来处理跨模态输入的原始流,以产生物体的细分并与高级概念相关联,以学习用户的颜色和形状的概念,并表明该模型可以从少量的物理演示中推广到识别新单词的物理指示。
Jun, 2017
本文研究了细微的物体形态差异在语言中的表达方式,通过图像和三维模型构建了大规模的数据集,利用神经网络进行理解和表达,实现了零样本迁移学习并探究了物体形态与语言结构在物体差异中的关系。
May, 2019
提出结合语言表述和三维可视化的方法,通过生成模型和检测模型等工具,可以从图像中推理出三维可视特征图,并进一步实现语言方面的任务,如检测引用表达和物体放置策略。这种方法可以更好地进行全景视角和空间推理。
Oct, 2019
提出了一种空间语言模型用于3D视觉定位问题,使用基于Transformer的架构将空间嵌入和DistilBert的语言嵌入结合起来进行目标对象预测,能够在ReferIt3D提出的数据集上表现出竞争性,可以被应用于机器人等领域的视觉任务中。
Jul, 2021
提出了一种语言引导的物体检测模型,使用底部和顶部的启发式信息来实现参考指称地面实体,同时获得了在流行的3D语言基础基准测试中的新的最先进的性能表现,与以前的技术相比显著提高。
Dec, 2021
提出了一种使用大型语言模型中通用的常识知识为机器人场景中的物品进行标记,该算法不需要任务特定的预训练,并且可以泛化到任意房间和物品标签——这是机器人场景理解算法中非常理想的特征。该算法基于由现代空间感知系统产生的3D场景图,并希望将为机器人提供更具有可推广性和可扩展性的高级3D场景理解铺平道路。
Jun, 2022
探讨使用大量语言模型来实现场景理解的常识;介绍了三种利用语言对包含对象的室内环境进行分类的范例:(i)零样本方法,(ii)前馈分类器方法和(iii)对比分类器方法,在现代空间感知系统生成的3D场景图上进行操作,并通过分析每种途径,展示了显着的零样本泛化和转移能力;最后,展示了这些方法也适用于推断包含房间的建筑标签,并在真实环境中展示了零样本方法。
Sep, 2022
本论文研究了CLIP模型在3D环境下对物体视角描述和识别中的表现以及对少量可用训练数据条件下的硬负采样和随机对比进行微调。
Feb, 2023
本文提出了 NS3D 三维场景认知神经符号框架,通过使用基于大规模语言编程模型的层级结构来将语言翻译为程序,不同的功能模块实现为神经网络,并引入管高度关系的功能模块有效地推理复杂场景中物体之间的关系,在数据效率和泛化方面表现出色,在3D视角相关任务ReferIt3D上获得了最先进的结果。
Mar, 2023
通过系统性地将3D视觉语言学习在室内环境中进行有序提升,本研究旨在解决3D视觉语言面临的三个主要挑战,包括复杂的3D场景、缺乏数据支持和缺乏统一的学习框架,并通过引入包含约68K个3D室内场景的场景语料库SceneVerse以及基于可扩展的场景图生成方法获取的约2.5M个视觉语言对,展示了Grounded Pre-training for Scenes (GPS)的有效性,通过在所有现有的3D视觉定位基准上取得了最先进的性能,并在具有挑战性的3D视觉语言任务的零样本迁移实验中揭示了SceneVerse和GPS的巨大潜力。
Jan, 2024