三维物体语言基础

Jul, 2021

Language Grounding with 3D Objects

Jesse Thomason, Mohit Shridhar, Yonatan Bisk, Chris Paxton, Luke Zettlemoyer

TL;DR本文介绍了一个新的推理任务，旨在针对三维对象的视觉和非视觉语言，并介绍了用于区分对象的几种 CLIP 模型。虽然最近在联合建模视觉和语言方面取得了进展，但这些基于图像的模型仍然对对象的三维性质了解不足，此文发现，将视图估计添加到语言引理模型可以提高准确性。

Abstract

Seemingly simple natural language requests to a robot are generally underspecified, for example "Can you bring me the wireless mouse?" When viewing mice on the shelf, the number of buttons or presence of a wire may not be visible from certain angles or positions. Flat images of candidate mice may not provide the discriminative information needed for "wireles

发现论文，激发创造

多模态指令中的符号基础

本文提出了一种方法来处理跨模态输入的原始流，以产生物体的细分并与高级概念相关联，以学习用户的颜色和形状的概念，并表明该模型可以从少量的物理演示中推广到识别新单词的物理指示。

Jun, 2017

ShapeGlot:学习形状区分的语言

本文研究了细微的物体形态差异在语言中的表达方式，通过图像和三维模型构建了大规模的数据集，利用神经网络进行理解和表达，实现了零样本迁移学习并探究了物体形态与语言结构在物体差异中的关系。

May, 2019

基于三维视觉特征表示的具身化语言基础

提出结合语言表述和三维可视化的方法，通过生成模型和检测模型等工具，可以从图像中推理出三维可视特征图，并进一步实现语言方面的任务，如检测引用表达和物体放置策略。这种方法可以更好地进行全景视角和空间推理。

Oct, 2019

Space-语言模型用于3D视觉基础

提出了一种空间语言模型用于3D视觉定位问题，使用基于Transformer的架构将空间嵌入和DistilBert的语言嵌入结合起来进行目标对象预测，能够在ReferIt3D提出的数据集上表现出竞争性，可以被应用于机器人等领域的视觉任务中。

Jul, 2021

图像和点云的语言基础的自底向上和自顶向下检测变压器

提出了一种语言引导的物体检测模型，使用底部和顶部的启发式信息来实现参考指称地面实体，同时获得了在流行的3D语言基础基准测试中的新的最先进的性能表现，与以前的技术相比显著提高。

Dec, 2021

从大型语言模型中提取零样机通用常识，用于机器人三维场景理解

提出了一种使用大型语言模型中通用的常识知识为机器人场景中的物品进行标记，该算法不需要任务特定的预训练，并且可以泛化到任意房间和物品标签——这是机器人场景理解算法中非常理想的特征。该算法基于由现代空间感知系统产生的3D场景图，并希望将为机器人提供更具有可推广性和可扩展性的高级3D场景理解铺平道路。

Jun, 2022

利用大型语言模型进行机器人三维场景理解

探讨使用大量语言模型来实现场景理解的常识；介绍了三种利用语言对包含对象的室内环境进行分类的范例：（i）零样本方法，（ii）前馈分类器方法和（iii）对比分类器方法，在现代空间感知系统生成的3D场景图上进行操作，并通过分析每种途径，展示了显着的零样本泛化和转移能力；最后，展示了这些方法也适用于推断包含房间的建筑标签，并在真实环境中展示了零样本方法。

Sep, 2022

Paparazzi：深入探究语言和视觉模型在观点描述中的能力

本论文研究了CLIP模型在3D环境下对物体视角描述和识别中的表现以及对少量可用训练数据条件下的硬负采样和随机对比进行微调。

Feb, 2023

NS3D: 三维物体和关系的神经符号基础

本文提出了 NS3D 三维场景认知神经符号框架，通过使用基于大规模语言编程模型的层级结构来将语言翻译为程序，不同的功能模块实现为神经网络，并引入管高度关系的功能模块有效地推理复杂场景中物体之间的关系，在数据效率和泛化方面表现出色，在3D视角相关任务ReferIt3D上获得了最先进的结果。

Mar, 2023

SceneVerse：面向基于场景的三维视觉语言学习的规模化

通过系统性地将3D视觉语言学习在室内环境中进行有序提升，本研究旨在解决3D视觉语言面临的三个主要挑战，包括复杂的3D场景、缺乏数据支持和缺乏统一的学习框架，并通过引入包含约68K个3D室内场景的场景语料库SceneVerse以及基于可扩展的场景图生成方法获取的约2.5M个视觉语言对，展示了Grounded Pre-training for Scenes (GPS)的有效性，通过在所有现有的3D视觉定位基准上取得了最先进的性能，并在具有挑战性的3D视觉语言任务的零样本迁移实验中揭示了SceneVerse和GPS的巨大潜力。

Jan, 2024