LLM 作为机器人的大脑：统一自我中心记忆和控制

Apr, 2023

LLM 作为机器人的大脑：统一自我中心记忆和控制

LLM as A Robotic Brain: Unifying Egocentric Memory and Control

Jinjie Mai, Jun Chen, Bing Li, Guocheng Qian, Mohamed Elhoseiny...

TL;DR本文提出了一个名为 LLM-Brain 的新型机器人控制框架，旨在利用大规模语言模型作为机器人的大脑，统一身体自我感知记忆和控制，并利用多模态语言模型来实现机器人任务的零样本学习。该框架可以通过多轮对话实现感知、规划、控制和记忆等任务，并通过两个下游任务（主动探测和实体问题回答）的实验来验证其有效性。

Abstract

embodied ai focuses on the study and development of intelligent systems that possess a physical or virtual embodiment (i.e. robots) and are able to dynamically interact with their environment. memory and

embodied ai llm-brain memory control multimodal language models

发现论文，激发创造

大规模语言模型在机器人学中的应用：一项调查

理解和评估机器人的灵活智能是一项复杂的任务，该综述回顾了大型语言模型在机器人领域的应用和对机器人控制、感知、决策制定和路径规划等关键领域的贡献，以及它们面临的潜在挑战。

Nov, 2023

通过语言模型进行规划的具身推理

研究了大型语言模型在具身化场景下的规划能力，通过自然语言反馈的方式，提高对机器人控制场景的理解和指导完成任务的效果。

Jul, 2022

大型语言模型在机器人领域的应用：机遇、挑战与展望

该研究全面概述了大型语言模型（LLMs）和多模态 LLMs 在各种机器人任务中的整合，并提出了一种利用多模态 GPT-4V 结合自然语言指令和机器人视觉感知增强具身任务规划的框架。基于多样化的数据集，我们的结果表明 GPT-4V 有效地提升了机器人在具身任务中的表现。对 LLMs 和多模态 LLMs 在各种机器人任务中的广泛调查和评估丰富了对以 LLMs 为中心的具身智能的理解，并提供了展望未来的关于人机环境交互的见解。

Jan, 2024

与环境对话：使用大型语言模型进行交互式多模态感知

在机器人的交互感知中，使用预先训练的大型语言模型（LLMs）作为交互感知框架，并将其应用于决策问题以及规划多模态环境中的任务执行，这样可以通过感知来指导认知行为和高层次的决策规划，这种方法可以显著提高任务完成的准确性和效率。

Mar, 2023

使用大语言模型模块化地构建合作体验智能体

论文提出了一种新的基于大型语言模型的多智能体合作框架，在多种身体环境中测试并得到了良好的效果，其具备规划、沟通和与其他人类或智能体合作完成长期任务等能力，并且与人类沟通的模型更容易获得信任，这为未来的智能体合作研究奠定了基础。

Jul, 2023

为大型语言模型代理赋予工作记忆能力

本文通过应用认知心理学的工作记忆框架来增强大型语言模型（LLMs）的架构，以解决其在人类记忆能力方面的限制，并提出了一种创新模型，包括集中的工作记忆中心和情景缓冲区，以提供更高的连续性，以实现复杂任务和合作场景中的细致语境推理。然而，对于情景记忆的优化编码、存储、优先级、检索和安全性仍需进一步研究，以促进发展具有更复杂、类似人类记忆能力的 LLM 代理。这表明记忆机制是人工通用智能领域的重要前沿。

Dec, 2023

EgoPlan-Bench：基于多模态大型语言模型的自我中心体验规划基准测试

多模态大型语言模型（MLLMs）在具有出色推理和概括能力的大型语言模型（LLMs）基础上开辟了新的具身任务规划途径。我们引入了一项人类注释的基准测试 EgoPlan-Bench，定量调查 MLLMs 在现实场景中作为具身任务规划器的潜力，并构建了一个指导调优数据集 EgoPlan-IT，这些实验结果表明，通过 EgoPlan-IT 调优的模型不仅在我们的基准测试中显著提高了性能，还在模拟中有效地扮演了具身规划器的角色。

Dec, 2023

代理作为大脑，控制器作为小脑：在无人机上实现基于内容感知的代理

本研究提出了一个新的产业机器人具身化代理范例，其采用 “代理为大脑，控制器为小脑” 的架构。我们的方法利用大型多模态模型（LMMs）在名为 AeroAgent 的代理框架中，针对产业环境中的无人机技术进行了针对性的设计。为了实现与机器人系统的无缝集成，我们引入了 ROSchain，这是一个连接基于 LMM 的代理与机器人操作系统（ROS）的专用链接框架。通过广泛的实证研究，包括对 Airgen 的模拟实验和真实案例研究，特别是在个体搜救行动中，我们报告了研究结果。结果表明，与现有的基于深度强化学习（DRL）的代理相比，AeroAgent 在复杂的真实场景中表现出更高的性能，凸显了具身化 LMM 在复杂真实世界情境中的优势。

Nov, 2023

ManipLLM: 对象为中心的机器人操作的具身多模态大规模语言模型

通过引入新颖的机器人操作方法，利用多模态大型语言模型（MLLMs）的强大推理能力，增强操作的稳定性和泛化能力。我们采用 fine-tuning 方法，在保留 MLLM 的常识和推理能力的同时，为其提供操作能力。实验结果表明 ManipLLM 在模拟器和真实环境中均有出色表现。

Dec, 2023

基于 LLM 的人机协作框架用于操作任务

该论文介绍了一种利用大型语言模型（LLM）进行自主机器人操纵的新方法，通过逻辑推理将高层语言命令转化为可执行的运动函数序列。所提出的系统将 LLM 的优势与基于 YOLO 的环境感知相结合，使机器人能够根据给定的命令自主做出合理的决策和任务规划。此外，为了解决 LLM 可能出现的不准确性或不合逻辑的行为，采用了远程操作和动态运动原理（DMP）的组合进行行为校正。这种融合旨在提高 LLM 基础的人机协作系统的实用性和通用性。

Aug, 2023