用大型语言模型引导机器人行走
大型语言模型在完成各种语言处理任务方面很成功,但在生成适当的控制序列时很容易与物理世界互动失败。我们发现主要原因是 LLM 没有与物理世界紧密连接。与现有基于 LLM 的方法相比,我们旨在解决这个问题,并探索在无训练范式下促使预训练 LLM 完成一系列机器人操作任务的可能性。为了将这些计划和控制序列与物理世界联系起来,我们开发了促使技术,通过刺激 LLM 来预测生成计划的后果并为相关对象生成可供性值。实验证明,LLM+A 在各种语言条件下的机器人操作任务中的有效性,显示了我们的方法通过增强生成计划和控制的可行性来显著提高性能,并能够轻松推广到不同的环境。
Apr, 2024
通过使用基于大型语言模型的规划器,我们克服了当前固定技能集的限制,提出了一种用于数据和时间高效教授机器人这些技能的方法,该系统可以重复使用新习得的技能,展示了开放世界和终身学习的潜力。
Sep, 2023
大型语言模型(LLMs)已经显示出在机器人方面作为高级规划器的潜力,但通常假设 LLMs 在低级轨迹规划方面不具备足够的知识。本文深入探讨了这个假设,研究了当 LLM(GPT-4)只有对象检测和分割视觉模型的访问权限时,是否可以直接预测操作技能的密集序列的末端执行器姿态。我们研究了一个单一的任务无关提示在 26 个真实世界的基于语言的任务上的表现,比如 “打开瓶盖” 和 “用海绵擦拭盘子”,并调查了这个提示中哪些设计选择是最有效的。我们的结论打破了 LLMs 在机器人领域的假设限制,首次揭示了 LLMs 确实具备在常见任务中理解低级机器人控制的能力,并且它们还可以检测到失败并相应地重新规划轨迹。
Oct, 2023
该研究全面概述了大型语言模型(LLMs)和多模态 LLMs 在各种机器人任务中的整合,并提出了一种利用多模态 GPT-4V 结合自然语言指令和机器人视觉感知增强具身任务规划的框架。基于多样化的数据集,我们的结果表明 GPT-4V 有效地提升了机器人在具身任务中的表现。对 LLMs 和多模态 LLMs 在各种机器人任务中的广泛调查和评估丰富了对以 LLMs 为中心的具身智能的理解,并提供了展望未来的关于人机环境交互的见解。
Jan, 2024
介绍了通过内置的自主机器人来扩大 LLM 响应的空间,根据语言能力、身体实体、环境和用户喜好挑选、修补、选择 LLM 提供的响应,从而使机器人能够完成 75% 以上的任务一次学习并显著减少需要人工监督的程度。
Jun, 2023
在机器人的交互感知中,使用预先训练的大型语言模型(LLMs)作为交互感知框架,并将其应用于决策问题以及规划多模态环境中的任务执行,这样可以通过感知来指导认知行为和高层次的决策规划,这种方法可以显著提高任务完成的准确性和效率。
Mar, 2023
理解和评估机器人的灵活智能是一项复杂的任务,该综述回顾了大型语言模型在机器人领域的应用和对机器人控制、感知、决策制定和路径规划等关键领域的贡献,以及它们面临的潜在挑战。
Nov, 2023
通过结合大规模语言模型作为语音界面,我们提出了一个框架,用于将大规模语言模型应用于物理辅助机器人,以实现高水平任务规划和代码生成,并通过实证研究为物理辅助机器人的语音界面设计提供指导。
Apr, 2024