LLM 作为机器人的大脑:统一自我中心记忆和控制
理解和评估机器人的灵活智能是一项复杂的任务,该综述回顾了大型语言模型在机器人领域的应用和对机器人控制、感知、决策制定和路径规划等关键领域的贡献,以及它们面临的潜在挑战。
Nov, 2023
该研究全面概述了大型语言模型(LLMs)和多模态 LLMs 在各种机器人任务中的整合,并提出了一种利用多模态 GPT-4V 结合自然语言指令和机器人视觉感知增强具身任务规划的框架。基于多样化的数据集,我们的结果表明 GPT-4V 有效地提升了机器人在具身任务中的表现。对 LLMs 和多模态 LLMs 在各种机器人任务中的广泛调查和评估丰富了对以 LLMs 为中心的具身智能的理解,并提供了展望未来的关于人机环境交互的见解。
Jan, 2024
在机器人的交互感知中,使用预先训练的大型语言模型(LLMs)作为交互感知框架,并将其应用于决策问题以及规划多模态环境中的任务执行,这样可以通过感知来指导认知行为和高层次的决策规划,这种方法可以显著提高任务完成的准确性和效率。
Mar, 2023
论文提出了一种新的基于大型语言模型的多智能体合作框架,在多种身体环境中测试并得到了良好的效果,其具备规划、沟通和与其他人类或智能体合作完成长期任务等能力,并且与人类沟通的模型更容易获得信任,这为未来的智能体合作研究奠定了基础。
Jul, 2023
本文通过应用认知心理学的工作记忆框架来增强大型语言模型(LLMs)的架构,以解决其在人类记忆能力方面的限制,并提出了一种创新模型,包括集中的工作记忆中心和情景缓冲区,以提供更高的连续性,以实现复杂任务和合作场景中的细致语境推理。然而,对于情景记忆的优化编码、存储、优先级、检索和安全性仍需进一步研究,以促进发展具有更复杂、类似人类记忆能力的 LLM 代理。这表明记忆机制是人工通用智能领域的重要前沿。
Dec, 2023
多模态大型语言模型(MLLMs)在具有出色推理和概括能力的大型语言模型(LLMs)基础上开辟了新的具身任务规划途径。我们引入了一项人类注释的基准测试 EgoPlan-Bench,定量调查 MLLMs 在现实场景中作为具身任务规划器的潜力,并构建了一个指导调优数据集 EgoPlan-IT,这些实验结果表明,通过 EgoPlan-IT 调优的模型不仅在我们的基准测试中显著提高了性能,还在模拟中有效地扮演了具身规划器的角色。
Dec, 2023
本研究提出了一个新的产业机器人具身化代理范例,其采用 “代理为大脑,控制器为小脑” 的架构。我们的方法利用大型多模态模型(LMMs)在名为 AeroAgent 的代理框架中,针对产业环境中的无人机技术进行了针对性的设计。为了实现与机器人系统的无缝集成,我们引入了 ROSchain,这是一个连接基于 LMM 的代理与机器人操作系统(ROS)的专用链接框架。通过广泛的实证研究,包括对 Airgen 的模拟实验和真实案例研究,特别是在个体搜救行动中,我们报告了研究结果。结果表明,与现有的基于深度强化学习(DRL)的代理相比,AeroAgent 在复杂的真实场景中表现出更高的性能,凸显了具身化 LMM 在复杂真实世界情境中的优势。
Nov, 2023
通过引入新颖的机器人操作方法,利用多模态大型语言模型(MLLMs)的强大推理能力,增强操作的稳定性和泛化能力。我们采用 fine-tuning 方法,在保留 MLLM 的常识和推理能力的同时,为其提供操作能力。实验结果表明 ManipLLM 在模拟器和真实环境中均有出色表现。
Dec, 2023
该论文介绍了一种利用大型语言模型(LLM)进行自主机器人操纵的新方法,通过逻辑推理将高层语言命令转化为可执行的运动函数序列。所提出的系统将 LLM 的优势与基于 YOLO 的环境感知相结合,使机器人能够根据给定的命令自主做出合理的决策和任务规划。此外,为了解决 LLM 可能出现的不准确性或不合逻辑的行为,采用了远程操作和动态运动原理(DMP)的组合进行行为校正。这种融合旨在提高 LLM 基础的人机协作系统的实用性和通用性。
Aug, 2023