物理基础的视觉语言模型用于机器人操作
该论文研究了自然语言模型是否能理解物理概念,并设计了一个基准测试 VEC 来探究视觉和具身概念。结果表明,视觉增强的语言模型,如 CLIP 和 BLIP,能够理解具身概念,而通过蒸馏方法将具身知识转移给 LMs 的性能也相当可观。
May, 2023
本研究使用自动管道方法研究了视觉 - 语言模型在获取 “可见” 物理知识方面的能力,并发现这些模型在物体颜色,大小和空间三个方面的表现与人类存在明显差距。而采用预训练的基线模型 (CapBERT) 可以取得更好的表现。
Sep, 2022
通过结合语言模型 (vision-language models)、分割模型和抓取综合模型,提出了一个能够在任何场景中理解、规划和执行物体抓取的开放世界抓取系统 (OWG),通过视觉提示机制,借助于开放式自由语言的引导实现零样本应用,展示了该系统在杂乱室内场景数据集和仿真环境、硬件实验中相对于以往的有监督和零样本语言模型方法具有优越性能。
Jun, 2024
本研究旨在探讨语言模型是否具有生成具体执行计划的能力,并针对该问题提出了一个新的问题解决方案: G-PlanET。通过将高级目标和特定环境中物体的数据表输入,我们设计了一种迭代解码策略,并使用新的度量标准 KAS 评估模型执行计划的质量,实验结果表明,将环境信息编码为表格,迭代解码策略可以显著提高语言模型的表现。
Aug, 2022
我们介绍了一种名为 Robotic Vision-Language Planning (ViLa) 的新方法,该方法结合了视觉 - 语言模型和长期规划,通过直接整合感知数据来生成可行步骤序列,以在广泛的开放世界操纵任务中展示其优势。
Nov, 2023
本文提出了一种基于视觉语言感知模型的新方法,可以在真实世界中从非结构化、离线、无需重置的数据中高效地学习通用的、以语言为条件的机器人技能,实验表明该方法配合 LLMS 可以在真实世界中完成长期、多层次的任务,并比以往方法少使用一个数量级的数据。
Oct, 2022
LLM-Grounder 是一种零样本、开放词汇量的基于大型语言模型(LLM)的 3D 视觉定位流水线。通过将复杂自然语言查询拆解为语义元素,并利用可视化定位工具识别 3D 场景中的对象,LLM-Grounder 评估所提议对象之间的空间和常识关系,从而做出最终的定位决策。该方法不需要有标签的培训数据,可应用于新型 3D 场景和任意文本查询,显示出最先进的零样本定位准确性。研究结果表明,LLM 显著提高了定位能力,尤其对于复杂语言查询,在机器人的 3D 视觉语言任务中,LLM-Grounder 是一种有效的方法。
Sep, 2023
我们介绍了一个自动的合成数据生成流水线,用于调整机器人领域和需求中的视觉语言模型,并通过该流水线训练了 RoboPoint,该模型可以根据语言指令预测图像关键点的可行性。与其他方法相比,我们的方法无需真实世界数据收集或人类示范,使得它在适应多样环境和视点方面具有更大的可扩展性。此外,RoboPoint 是一个通用模型,可以用于机器人导航、操作和增强现实(AR)辅助等多个下游应用。我们的实验证明,RoboPoint 在预测空间可行性的准确性上比最先进的 VLMs(GPT-4o)和视觉提示技术(PIVOT)提高了 21.8%,在下游任务的成功率上提高了 30.5%。
Jun, 2024
本文提出自动操作求解器(AMSolver)系统和基于其构建的视觉与语言操作基准(VLMbench),用于处理基于语言指令的机器人操作任务,并开发了基于关键点的 6D-CLIPort 模型来处理多视角观察和语言输入并输出一系列 6 自由度(DoF)动作。
Jun, 2022
本文探讨了 LLMs 在情境环境中通过物理推理解决问题的能力。我们构建了一个简单的模拟环境,并展示了 LLMs 在无先验条件下对各种物体的原子世界知识的示例,但在对象操作和放置任务中未能将这些知识组合成正确的解决方案。我们还使用了 BLIP,一个经过更复杂的跨模态注意力训练的视觉语言模型,来识别该模型未能基于对象物理属性进行建模的案例。最后,我们提出了一种发现环境中相关性质的对象的方法,并提出了一种将这些知识转化回 LLM 的方法。
Feb, 2024