InCoRo:带反馈循环的机器人控制中的上下文学习
我们提出了一种新颖的多机器人协作方法,利用预训练的大型语言模型(LLMs)进行高层通信和低层路径规划,通过机器人之间的交流和集体推理任务策略,并生成子任务计划和任务空间路径,应用于多臂运动规划,以加速轨迹规划,并在环境中提供反馈,如碰撞检测,以促使 LLM 代理改进其计划和路径点。我们提出了 RoCoBench,一个包含六个任务的广泛多机器人协作场景的基准测试,伴随着一个纯文本数据集用于代理表示和推理。我们在实验证明了我们方法的有效性 - 它在 RoCoBench 的所有任务上都取得了高成功率,并且能够适应任务语义的变化。我们的对话设置提供了高度的可解释性和灵活性 - 在真实世界的实验中,我们展示了 RoCo 可以轻松地与人工智能交互,用户可以与机器人代理合作完成任务。请参考项目网站以观看视频和获取代码。
Jul, 2023
本文介绍了一种名为 LCORPP 的机器人 SDM 框架,通过使用混合推理范式提高状态估计器,提供概率规划器的有用先验知识,以估计人类意图和进行规划,实验表明此框架比无学习和无推理的对应框架在办公环境中具有更高的效率和准确性。
Jan, 2019
通过自然语言提示和来自机器人操作系统(ROS)的上下文信息,我们提出了一个直观的非专业人士机器人编程框架。该框架集成了大型语言模型(LLMs),使非专业人士能够通过聊天界面向系统表达任务要求。它具有与 ROS 集成的 AI 代理与大量开源和商用 LLMs 的连接、从 LLM 输出中提取行为和执行 ROS 动作 / 服务的自动化提取、支持三种行为模式(顺序、行为树、状态机)、模仿学习以将新的机器人行为添加到可能的动作库中以及通过人类和环境反馈实现 LLM 反思的功能。大量实验证实了该框架在各种场景(包括长时间视野任务、桌面重新排列和远程监督控制)中的鲁棒性、可扩展性和多功能性。为了促进我们框架的使用和支持我们结果的可复制性,我们已经将我们的代码开源。您可以在以下网址访问:this https URL
Jun, 2024
本文提出了一种新颖的方法,即通过利用大型语言模型 (LLMs) 定义奖励参数,从而优化和实现各种机器人任务,并结合实时优化器 MuJoCo MPC,使用户可以交互地创造行为并快速获得结果反馈。作者在一个模拟仿真机器人四足动物和一种机械手进行了 17 个任务的评价,证明了这种方法成功解决了 90% 的任务,并在真实机器人手臂上验证了方法的有效性,包括非握持推动等复杂操作技能。
Jun, 2023
在全面自主的机器人系统领域,本研究通过提出系统架构来解决复杂开放世界环境中任务与动作规划的挑战,核心是处理生成计划中的物理、逻辑和语义错误的重规划策略。通过在仿真和两个复杂的现实场景中进行实证评估,我们展示了所提出的反馈架构对可执行性、正确性和时间复杂性的有效性。
Oct, 2023
通过使用基于大型语言模型的规划器,我们克服了当前固定技能集的限制,提出了一种用于数据和时间高效教授机器人这些技能的方法,该系统可以重复使用新习得的技能,展示了开放世界和终身学习的潜力。
Sep, 2023
语言模型相互作用中的反馈循环可能会导致上下文激励欺骗 (ICRH),这涉及输出改进和策略改进两个过程,而评估静态数据集是不充分的,因此需要采取三项评估推荐措施来更全面地理解和捕捉 ICRH 行为。
Feb, 2024
通过利用大型语言模型的及时反馈,Lafite-RL(语言代理反馈互动式强化学习)框架使强化学习智能体能够有效地学习机器人任务,实验结果表明,Lafite-RL 智能体在自然语言的简单提示设计下,通过大型语言模型的引导在学习效率和成功率方面优于基准模型,凸显了大型语言模型所提供的奖励的功效。
Nov, 2023
该论文介绍了一种利用大型语言模型(LLM)进行自主机器人操纵的新方法,通过逻辑推理将高层语言命令转化为可执行的运动函数序列。所提出的系统将 LLM 的优势与基于 YOLO 的环境感知相结合,使机器人能够根据给定的命令自主做出合理的决策和任务规划。此外,为了解决 LLM 可能出现的不准确性或不合逻辑的行为,采用了远程操作和动态运动原理(DMP)的组合进行行为校正。这种融合旨在提高 LLM 基础的人机协作系统的实用性和通用性。
Aug, 2023