VoxPoser:使用语言模型构建可组合的三维价值地图,实现机器人操作
利用大型语言模型(LLMs)和大型视觉语言模型(LVLMs)的能力,本研究提出了一个综合框架,模仿人类认知以实现对象目标导航问题的解决,通过关注、感知和存储任务特定信息,并生成相应计划。为了有效表示机器人周围的环境,提出使用语义丰富的 3D 场景模块化表示,并引入基于 LLM 的修剪策略以消除无关的目标特定信息。
Mar, 2024
通过引入新颖的机器人操作方法,利用多模态大型语言模型(MLLMs)的强大推理能力,增强操作的稳定性和泛化能力。我们采用 fine-tuning 方法,在保留 MLLM 的常识和推理能力的同时,为其提供操作能力。实验结果表明 ManipLLM 在模拟器和真实环境中均有出色表现。
Dec, 2023
通过使用基于大型语言模型的规划器,我们克服了当前固定技能集的限制,提出了一种用于数据和时间高效教授机器人这些技能的方法,该系统可以重复使用新习得的技能,展示了开放世界和终身学习的潜力。
Sep, 2023
本文提出自动操作求解器(AMSolver)系统和基于其构建的视觉与语言操作基准(VLMbench),用于处理基于语言指令的机器人操作任务,并开发了基于关键点的 6D-CLIPort 模型来处理多视角观察和语言输入并输出一系列 6 自由度(DoF)动作。
Jun, 2022
大型语言模型(LLMs)已经显示出在机器人方面作为高级规划器的潜力,但通常假设 LLMs 在低级轨迹规划方面不具备足够的知识。本文深入探讨了这个假设,研究了当 LLM(GPT-4)只有对象检测和分割视觉模型的访问权限时,是否可以直接预测操作技能的密集序列的末端执行器姿态。我们研究了一个单一的任务无关提示在 26 个真实世界的基于语言的任务上的表现,比如 “打开瓶盖” 和 “用海绵擦拭盘子”,并调查了这个提示中哪些设计选择是最有效的。我们的结论打破了 LLMs 在机器人领域的假设限制,首次揭示了 LLMs 确实具备在常见任务中理解低级机器人控制的能力,并且它们还可以检测到失败并相应地重新规划轨迹。
Oct, 2023
该研究介绍了一种利用大型语言模型(LLMs)的能力生成通用长视野操作的基本任务条件的框架,用于对新颖物体和未知任务进行操作。这些任务条件用于指导长时程任务执行中动态运动基元(DMP)轨迹的生成和调整。我们还基于 Pybullet 创建了一个用于进行长时程任务评估的具有挑战性的机器人操纵任务套件。在模拟和现实环境中进行的大量实验证明了我们的框架在涉及新对象的熟悉任务和新颖但相关任务上的有效性,突显了大型语言模型在提升机器人系统的多功能性和适应性方面的潜力。
Oct, 2023
我们介绍了一个自动的合成数据生成流水线,用于调整机器人领域和需求中的视觉语言模型,并通过该流水线训练了 RoboPoint,该模型可以根据语言指令预测图像关键点的可行性。与其他方法相比,我们的方法无需真实世界数据收集或人类示范,使得它在适应多样环境和视点方面具有更大的可扩展性。此外,RoboPoint 是一个通用模型,可以用于机器人导航、操作和增强现实(AR)辅助等多个下游应用。我们的实验证明,RoboPoint 在预测空间可行性的准确性上比最先进的 VLMs(GPT-4o)和视觉提示技术(PIVOT)提高了 21.8%,在下游任务的成功率上提高了 30.5%。
Jun, 2024
该论文介绍了一种利用大型语言模型(LLM)进行自主机器人操纵的新方法,通过逻辑推理将高层语言命令转化为可执行的运动函数序列。所提出的系统将 LLM 的优势与基于 YOLO 的环境感知相结合,使机器人能够根据给定的命令自主做出合理的决策和任务规划。此外,为了解决 LLM 可能出现的不准确性或不合逻辑的行为,采用了远程操作和动态运动原理(DMP)的组合进行行为校正。这种融合旨在提高 LLM 基础的人机协作系统的实用性和通用性。
Aug, 2023
本研究提出了 VLMaps,一种将 3D 物理世界重建与预训练的视觉语言特征直接融合的空间地图表示,其能够通过大型语言模型将自然语言命令直接转化为空间导航目标。VLMaps 能够在不需要额外标注数据的情况下自主构建,并且可以与多种类型的机器人共享,能够进行导航的同时生成新的障碍物地图。实验表明,VLMaps 可以支持人类语言含义更丰富的导航指令。
Oct, 2022
在机器人的交互感知中,使用预先训练的大型语言模型(LLMs)作为交互感知框架,并将其应用于决策问题以及规划多模态环境中的任务执行,这样可以通过感知来指导认知行为和高层次的决策规划,这种方法可以显著提高任务完成的准确性和效率。
Mar, 2023