GPT-4V 闭环开词汇库移动操作
我们介绍了一种通过整合人类动作观察来增强通用视觉语言模型 GPT-4V (ision) 的流水线,以促进机器人操纵。该系统分析人类执行任务的视频,并创建包含可支配见解的可执行机器人程序。实验表明,该方法在实现从人类示范中的真实机器人操作方面具有显著效果。
Nov, 2023
我们介绍了一种名为 Robotic Vision-Language Planning (ViLa) 的新方法,该方法结合了视觉 - 语言模型和长期规划,通过直接整合感知数据来生成可行步骤序列,以在广泛的开放世界操纵任务中展示其优势。
Nov, 2023
本文介绍了一种神经符号 (混合) 组合推理模型,以将语言引导的视觉推理与机器人操作相结合。该模型通过使用共享的原始技能库以任务非特定的方式处理所有情况。通过语言解析器将输入查询映射为由这些原语组成的可执行程序取决于上下文。结果表明,该方法达到了非常高的准确性,同时可以进行少量的视觉微调,从而实现了真实场景的可转移性。
Oct, 2022
本篇论文中,我们使用大语言模型(LLMs)为基础,介绍了一款纯 LLMs 导航代理 NavGPT,通过对视觉和语言导航(VLN)进行零样本顺序动作预测,揭示了 GPT 模型在复杂体验场景中的推理能力,以及它在导航中的应用,通过全面的实验,展示了 NavGPT 可以分解指令成子目标、对与导航任务相关的常识知识进行集成以及适应特殊情况等高级规划能力。
May, 2023
在未知和动态环境中,建立并理解空间语义上下文的移动机器人操作任务通过零样本检测和基于视觉 - 语言模型的密集三维实体重建,利用大型语言模型进行空间区域抽象和在线规划,并通过演示在实际机器人实验中取得较高的导航和任务成功率以及基线模型相比更好的成功率和性能,证明了这种新的框架的有效性。
Jun, 2024
提出了一个学习机器人操纵任务高级认知能力的新框架,使用语言模型构建 AlphaBlock 数据集,自动采集综合高级多步文本计划和配对观察序列,使用多模式的闭环计划模型自回归生成计划,从而实现对机器人的精细操作。实验结果表明,该方法显著提高了成功率。
May, 2023
通过利用视觉 - 语言模型(VLM)的通识推理能力,以及 VLM 在上下文适应和多技能规划方面的关键组件,我们提出了 VLM-Predictive Control(VLM-PC)系统,能够帮助双足机器人在处理困难、模糊的情况下做出自适应行为选择,从而使机器人能够在多样复杂的情景中自主感知、导航和行动,而无需环境特定的工程或人类引导。
Jul, 2024
该研究全面概述了大型语言模型(LLMs)和多模态 LLMs 在各种机器人任务中的整合,并提出了一种利用多模态 GPT-4V 结合自然语言指令和机器人视觉感知增强具身任务规划的框架。基于多样化的数据集,我们的结果表明 GPT-4V 有效地提升了机器人在具身任务中的表现。对 LLMs 和多模态 LLMs 在各种机器人任务中的广泛调查和评估丰富了对以 LLMs 为中心的具身智能的理解,并提供了展望未来的关于人机环境交互的见解。
Jan, 2024
大型语言模型(LLMs)已经显示出在机器人方面作为高级规划器的潜力,但通常假设 LLMs 在低级轨迹规划方面不具备足够的知识。本文深入探讨了这个假设,研究了当 LLM(GPT-4)只有对象检测和分割视觉模型的访问权限时,是否可以直接预测操作技能的密集序列的末端执行器姿态。我们研究了一个单一的任务无关提示在 26 个真实世界的基于语言的任务上的表现,比如 “打开瓶盖” 和 “用海绵擦拭盘子”,并调查了这个提示中哪些设计选择是最有效的。我们的结论打破了 LLMs 在机器人领域的假设限制,首次揭示了 LLMs 确实具备在常见任务中理解低级机器人控制的能力,并且它们还可以检测到失败并相应地重新规划轨迹。
Oct, 2023