语言嵌入辐射场用于零 - shot 任务导向的抓取
本研究提出了 LaTeRF 方法,通过引入 “对象性” 概率,扩展 NeRF 公式,结合自然语言描述、点标签等信息从场景中提取出感兴趣的物体,并结合预训练的 CLIP 模型和可微分对象渲染器来修复物体的遮挡部分。实验结果表明该方法在合成和真实数据集上均能实现高保真物体提取。
Jul, 2022
通过几何分解目标物体为简单的凸形状并将其表示为图形结构,包括几何属性和空间关系,利用大型语言模型的常识推理能力来动态分配语义含义,并对每个分解部分在特定任务中的效用进行推理,实现了一种新颖的零样本任务导向抓取方法。通过在真实世界的机器人平台上进行广泛实验,我们证明了我们的抓取方法的分解与推理管道在 92% 的情况下能够选择正确的部分,并且在 82% 的任务中成功抓取目标物体。
Mar, 2024
通过将单一对象级别的交互式物体重建扩展到复杂场景级别,本研究旨在推进物理世界交互式场景重建的进展。为了准确模拟复杂场景中多个物体的交互运动,我们提出了 LiveScene,即第一个嵌入场景级语言交互式神经辐射场,它能够高效重建和控制复杂场景中的多个交互式物体。通过将交互场景分解为多个局部可变形场,分别重建各个交互式对象,实现了对复杂场景中多个交互式物体的首个准确且独立的控制。此外,我们引入了一种交互感知的语言嵌入方法,通过生成不同交互状态下的语言嵌入来定位各个交互式对象,实现使用自然语言对交互式物体的任意控制。最后,我们利用构建的 OminiSim 和 InterReal 数据集对 LiveScene 进行评估,并在各种模拟和真实世界的复杂场景上展示了出色的新视角合成和语言注释性能,分别在 CoNeRF Synthetic、OminiSim #chanllenging 和 InterReal #chanllenging 数据集上的 PSNR 指标上超过现有方法 9.89、1.30 和 1.99,以及在 OminiSim 数据集上的 mIOU 指标上超过 65.12。
Jun, 2024
Dream Fields 提出了一种结合神经渲染和多模态图像和文本表示的方法,能够通过自然语言描述合成各种几何形状和颜色的 3D 对象。
Dec, 2021
通过使用 GaussianGrasper,可以利用 3D 高斯喷洒技术将场景明确地表示为一系列高斯原语,并通过语言指令使机器人能够准确查询和抓取对象,为语言引导的操作任务提供了新的解决方案。
Mar, 2024
通过 L3GO 模型,利用大型语言模型作为代理,使用 3D 仿真环境进行试错式组合,推理和生成 Diffusion-based 图像模型中难以处理的非传统对象的基于部件的 3D 网格生成。在 ShapeNet 和 UFO 基准上,我们的方法在人工和自动评估中表现优于标准 GPT-4 和其他语言代理。
Feb, 2024
LLM-Grounder 是一种零样本、开放词汇量的基于大型语言模型(LLM)的 3D 视觉定位流水线。通过将复杂自然语言查询拆解为语义元素,并利用可视化定位工具识别 3D 场景中的对象,LLM-Grounder 评估所提议对象之间的空间和常识关系,从而做出最终的定位决策。该方法不需要有标签的培训数据,可应用于新型 3D 场景和任意文本查询,显示出最先进的零样本定位准确性。研究结果表明,LLM 显著提高了定位能力,尤其对于复杂语言查询,在机器人的 3D 视觉语言任务中,LLM-Grounder 是一种有效的方法。
Sep, 2023
该研究旨在通过新的 3D-TOGO 模型实现通用的基于文本的跨类别的 3D 对象生成。其中包括文本到视图的生成模块和视图到 3D 对象的生成模块,前者可以生成目标 3D 对象的不同视图,后者采用 pixelNeRF 模型从预先生成的视图中获取隐式 3D 神经表示。该模型表现出更好的视图一致性和字幕相似性,能够根据输入文本生成具有良好纹理和无需逐个优化的 3D 对象,并能控制生成的对象的类别、颜色和形状。在最大的 3D 物体数据集(即 ABO)上进行了广泛的实验验证,证明了 3D-TOGO 相比 text-NeRF 和 Dreamfields 能够更好地生成高质量的 3D 对象。
Dec, 2022
基于大规模视觉语言模型的对象感知与定位能力,我们引入一个新颖的语言提示定位数据集并提出了一种纯粹基于 LVLM 的基准模型 Griffon,该模型在细粒度的 RefCOCO 系列上达到了最先进的性能,并接近于专家模型 Faster RCNN 在检测基准 MSCOCO 上的能力。
Nov, 2023
使用真实世界中的人类活动 RGB 数据集来教授机器人任务导向抓取(TOG),可以训练一个根据 RGB 图像预测手姿态和物体姿态及形态的模型,并在真实世界数据集上显示其可行性和竞争力,同时在机器人上展示了 TOG 的效果。
Oct, 2019