Agent3D-Zero:一种用于零样本三维理解的智能体
探讨使用大量语言模型来实现场景理解的常识;介绍了三种利用语言对包含对象的室内环境进行分类的范例:(i)零样本方法,(ii)前馈分类器方法和(iii)对比分类器方法,在现代空间感知系统生成的 3D 场景图上进行操作,并通过分析每种途径,展示了显着的零样本泛化和转移能力;最后,展示了这些方法也适用于推断包含房间的建筑标签,并在真实环境中展示了零样本方法。
Sep, 2022
利用大规模知识和学习方案以及大型语言模型(LLM),最近的机器学习模型在构建通用性代理人方面取得显著成功,表现出在不同领域(包括自然语言处理、计算机视觉和机器人技术)解决通用任务的能力。然而,这些模型在理解和与三维世界交互方面仍存在显著挑战。我们认为这一限制显著阻碍了当前模型执行现实世界任务和进一步实现通用智能的能力。为此,我们提出了一种根植于三维世界中,并具有多模态和多任务的通用代理人,其在感知、根据、推理、规划和行动方面表现出色。我们的提出的代理人,称为 LEO,在两个阶段进行训练:(一)三维视觉语言对齐,(二)三维视觉语言行动指导调整。为了促进训练,我们细致地策划并生成统计规模和复杂性的物体级和场景级多模态任务的大规模数据集,需要对三维世界进行深入的理解和交互。通过严格的实验证明了 LEO 在广泛任务范围中的出色能力,包括三维字幕、问题解答、根植式推理、根植式导航和机器人操作。我们的消融实验结果进一步为未来根植式通用代理的发展提供了有价值的见解。
Nov, 2023
提出了一种使用大型语言模型中通用的常识知识为机器人场景中的物品进行标记,该算法不需要任务特定的预训练,并且可以泛化到任意房间和物品标签 —— 这是机器人场景理解算法中非常理想的特征。该算法基于由现代空间感知系统产生的 3D 场景图,并希望将为机器人提供更具有可推广性和可扩展性的高级 3D 场景理解铺平道路。
Jun, 2022
可以不借助任何 3D 人 - 场景交互数据合成 3D 人与场景交互吗?我们提出了 GenZI,这是第一个零样本方法,用于生成 3D 人与场景的交互。GenZI 的关键在于从大型视觉 - 语言模型 (VLMs) 中提取交互先验知识,这些先验知识学习了丰富的二维人 - 场景组合的语义空间。通过给定自然语言描述和 3D 场景中所需交互的粗略点位置,我们首先利用 VLMs 来想象描绘在场景的多个渲染视图中的可信的二维人交互。然后,我们通过与 2D 交互假设的一致性引导,制定一个鲁棒的迭代优化过程,合成场景中的 3D 人模型的姿态和形状。与现有的基于学习的方法相比,GenZI 避免了传统上对捕获的 3D 交互数据的需求,并允许使用简单易用的文字提示对 3D 交互合成进行灵活控制。大量实验证明我们的零样本方法具有高灵活性和广泛适用性,可适用于包括室内和室外环境在内的各种场景类型。
Nov, 2023
这篇论文介绍了一种基于零样本推理的 3D 分割新任务,以搜索和定位物体的部件为目标,它超越了先前的类别特定 3D 语义分割、3D 实例分割和开放词汇 3D 分割的限制。我们设计了一个简单的基线方法,Reasoning3D,能够理解和执行复杂的命令,对具有上下文感知和推理答案的 3D 网格进行 (细粒度的) 特定部分分割。该方法利用现成的预训练二维分割网络,由大型语言模型 (LLMs) 支持,在零样本的方式下解释用户的输入查询。我们的方法具有泛化性,能够根据隐含的文本查询有效地定位和突出显示 3D 对象的部分,包括这些组成部分的 3D 对象和真实世界的扫描数据。此外,我们的无训练方法可实现快速部署,并成为未来研究中关于部件级 3D (语义) 对象理解的可行通用基线,在包括机器人学、物体操作、部件装配、自动驾驶应用、增强现实和虚拟现实 (AR/VR) 以及医疗应用等各个领域发挥作用。该论文提供了代码、模型权重、部署指南和评估协议。
May, 2024
改善大型语言模型在通用语言理解任务上的零样本推理能力的方法,通过建立一个自动代理来指导大型语言模型的推理过程,将零样本推理能力进一步发挥到更多任务中,取得了在众多数据集上的最先进的零样本性能。
Oct, 2023
LLM-Grounder 是一种零样本、开放词汇量的基于大型语言模型(LLM)的 3D 视觉定位流水线。通过将复杂自然语言查询拆解为语义元素,并利用可视化定位工具识别 3D 场景中的对象,LLM-Grounder 评估所提议对象之间的空间和常识关系,从而做出最终的定位决策。该方法不需要有标签的培训数据,可应用于新型 3D 场景和任意文本查询,显示出最先进的零样本定位准确性。研究结果表明,LLM 显著提高了定位能力,尤其对于复杂语言查询,在机器人的 3D 视觉语言任务中,LLM-Grounder 是一种有效的方法。
Sep, 2023
SIG3D 是一个端到端的基于情境的 3D 视觉语言推理模型,该模型在情境估计和问题回答方面的性能明显优于现有模型,尤其是在情境估计准确率方面提升超过 30%。
Jun, 2024
本文提出了一个新的大规模 3D 多视图视觉问答基准(3DMV-VQA),介绍了一种基于神经场,2D 预训练的视觉语言模型和神经推理运算符的 3D 概念学习与推理(3D-CLR)框架,并评估了各种最先进的模型,发现它们都表现不佳,提出了从多视图图像中推断出世界的紧凑 3D 表示,并在此基础上执行推理的原则方法,对挑战进行了深入分析并指出了潜在的未来方向。
Mar, 2023
通过利用点云的几何结构改进传输的视觉 - 语言模型,我们提出了首个无需训练的聚合技术,通过几何和语义的点级推理,在分类、部件分割和语义分割等三个任务中取得了新的技术优势。
Dec, 2023