基于自然语言的装配技术发展
理解和评估机器人的灵活智能是一项复杂的任务,该综述回顾了大型语言模型在机器人领域的应用和对机器人控制、感知、决策制定和路径规划等关键领域的贡献,以及它们面临的潜在挑战。
Nov, 2023
该研究全面概述了大型语言模型(LLMs)和多模态 LLMs 在各种机器人任务中的整合,并提出了一种利用多模态 GPT-4V 结合自然语言指令和机器人视觉感知增强具身任务规划的框架。基于多样化的数据集,我们的结果表明 GPT-4V 有效地提升了机器人在具身任务中的表现。对 LLMs 和多模态 LLMs 在各种机器人任务中的广泛调查和评估丰富了对以 LLMs 为中心的具身智能的理解,并提供了展望未来的关于人机环境交互的见解。
Jan, 2024
通过使用基于大型语言模型的规划器,我们克服了当前固定技能集的限制,提出了一种用于数据和时间高效教授机器人这些技能的方法,该系统可以重复使用新习得的技能,展示了开放世界和终身学习的潜力。
Sep, 2023
利用大型语言模型(LLMs)和大型视觉语言模型(LVLMs)的能力,本研究提出了一个综合框架,模仿人类认知以实现对象目标导航问题的解决,通过关注、感知和存储任务特定信息,并生成相应计划。为了有效表示机器人周围的环境,提出使用语义丰富的 3D 场景模块化表示,并引入基于 LLM 的修剪策略以消除无关的目标特定信息。
Mar, 2024
通过对基础模型在真实世界机器人应用中替换现有组件的主要影响进行概述,本文总结了基础模型在机器人领域中输入输出关系的观点,以及它们在感知、运动规划和控制方面的作用,并讨论了未来挑战和对实际机器人应用的影响。
Feb, 2024
基于大型语言模型(LLMs)的研究表明,通过合适的动作空间重新参数化,包括遵守与交互力和刚度相关的约束条件,能够成功地生成用于接触丰富和高精度操纵任务的策略,即使在噪声条件下也有效。
Apr, 2024
通过利用多模态大语言模型(MLLMs)的预训练能力,我们介绍了 RoboLLM 框架以应对 ARMBench 挑战中的视觉感知任务,在实际仓库场景下的大规模机器人操作数据集中,RoboLLM 不仅优于现有基线方法,还大幅减少了模型选择和调优的工作量。
Oct, 2023
该论文介绍了一种利用大型语言模型(LLM)进行自主机器人操纵的新方法,通过逻辑推理将高层语言命令转化为可执行的运动函数序列。所提出的系统将 LLM 的优势与基于 YOLO 的环境感知相结合,使机器人能够根据给定的命令自主做出合理的决策和任务规划。此外,为了解决 LLM 可能出现的不准确性或不合逻辑的行为,采用了远程操作和动态运动原理(DMP)的组合进行行为校正。这种融合旨在提高 LLM 基础的人机协作系统的实用性和通用性。
Aug, 2023
本文提出了一种新颖的方法,即通过利用大型语言模型 (LLMs) 定义奖励参数,从而优化和实现各种机器人任务,并结合实时优化器 MuJoCo MPC,使用户可以交互地创造行为并快速获得结果反馈。作者在一个模拟仿真机器人四足动物和一种机械手进行了 17 个任务的评价,证明了这种方法成功解决了 90% 的任务,并在真实机器人手臂上验证了方法的有效性,包括非握持推动等复杂操作技能。
Jun, 2023