LEGENT: 落地式代理人开放平台

Apr, 2024

LEGENT: Open Platform for Embodied Agents

Zhili Cheng, Zhitong Wang, Jinyi Hu, Shengding Hu, An Liu...

TL;DR通过使用 LEGENT 生成的数据，我们训练的视觉 - 语言 - 动作模型在具体任务中超越了 GPT-4V，展示了令人期待的泛化能力。

Abstract

Despite advancements in large language models (LLMs) and Large Multimodal Models (LMMs), their integration into language-grounded, human-like embodied agents remains incomplete, hindering complex real-life task performance in physical environments. Existing integrations often feature l

large language models large multimodal models embodied agents legent vision-language-action model

发现论文，激发创造

使用大语言模型模块化地构建合作体验智能体

论文提出了一种新的基于大型语言模型的多智能体合作框架，在多种身体环境中测试并得到了良好的效果，其具备规划、沟通和与其他人类或智能体合作完成长期任务等能力，并且与人类沟通的模型更容易获得信任，这为未来的智能体合作研究奠定了基础。

Jul, 2023

三维环境中的具身综合应用智能体

利用大规模知识和学习方案以及大型语言模型（LLM），最近的机器学习模型在构建通用性代理人方面取得显著成功，表现出在不同领域（包括自然语言处理、计算机视觉和机器人技术）解决通用任务的能力。然而，这些模型在理解和与三维世界交互方面仍存在显著挑战。我们认为这一限制显著阻碍了当前模型执行现实世界任务和进一步实现通用智能的能力。为此，我们提出了一种根植于三维世界中，并具有多模态和多任务的通用代理人，其在感知、根据、推理、规划和行动方面表现出色。我们的提出的代理人，称为 LEO，在两个阶段进行训练：（一）三维视觉语言对齐，（二）三维视觉语言行动指导调整。为了促进训练，我们细致地策划并生成统计规模和复杂性的物体级和场景级多模态任务的大规模数据集，需要对三维世界进行深入的理解和交互。通过严格的实验证明了 LEO 在广泛任务范围中的出色能力，包括三维字幕、问题解答、根植式推理、根植式导航和机器人操作。我们的消融实验结果进一步为未来根植式通用代理的发展提供了有价值的见解。

Nov, 2023

大型语言模型在机器人领域的应用：机遇、挑战与展望

该研究全面概述了大型语言模型（LLMs）和多模态 LLMs 在各种机器人任务中的整合，并提出了一种利用多模态 GPT-4V 结合自然语言指令和机器人视觉感知增强具身任务规划的框架。基于多样化的数据集，我们的结果表明 GPT-4V 有效地提升了机器人在具身任务中的表现。对 LLMs 和多模态 LLMs 在各种机器人任务中的广泛调查和评估丰富了对以 LLMs 为中心的具身智能的理解，并提供了展望未来的关于人机环境交互的见解。

Jan, 2024

LangSuitE：在具体文本环境中规划、控制和交互大型语言模型

通过介绍一种新的多用途无仿真测试平台 LangSuitE 以及一种新的思维链式 (schema) EmMem 来评估大型语言模型在动态交互环境中作为少样本或零样本具有实体的智能体的效果和挑战，该研究对于建立语言模型背景下的具有实体特征的普适性智能体代表了重要的进展。

Jun, 2024

我们真的需要一个复杂的代理系统吗？将具体化的代理蒸馏成单一模型

STEVE-2 使用层次化知识蒸馏框架，将大型语言模型和多模态语言模型集成到开放式任务中的具身代理中，实现了复杂的任务执行以及对可执行动作的生成。STEVE-2 在导航和创作任务上的广泛评估表明，在开放式任务中，其表现优于其他方法，性能提升了 1.4-7.3 倍。

Apr, 2024

通过多模态大型语言模型实现端到端的具身决策: GPT4-Vision 及其后续探索

通过 PCA-EVAL 基准和 HOLMES 多智能体协作框架的比较，我们发现 GPT4-Vision 模型在端到端的具体决策制定能力方面表现出色，平均决策准确率比 GPT4-HOLMES 高出 3%，但这种性能仅适用于最新的 GPT4-Vision 模型，超过开源最先进的多模态大型语言模型的 26%。我们的结果表明，像 GPT4-Vision 这样功能强大的多模态大型语言模型对具体决策有很大的潜力，为多模态大型语言模型研究开辟了新的途径。

Oct, 2023

通过并行的文本世界训练的具有多模态的体验智能体

我们通过在文本世界的任务中，将大型语言模型（LLMs）的反思结果（通过分析错误改进的行为）融入到视觉世界的相同任务中来训练一个居住在视觉世界的视觉语言模型（VLM）代理，从而使得这个多模态的具身代理（EMMA）能够快速适应视觉世界的动态，并在 ALFWorld 基准测试中表现出优越的性能。

Nov, 2023

LLM-Planner: 借助大型语言模型进行少样本基于实例的具身 agent 规划

本研究使用大型语言模型 (Large Language Models, LLMs) 作为规划师，以完成视觉感知环境中的复杂任务的具有身体接口的代理人。研究提出了 LLM-Planner 方法进行 few-shot planning，同时提出通过物理接口增强 LLMs 的简单而有效的方法，实验结果表明该方法在 ALFRED 数据集上能够取得与使用全数据训练的基线模型相当的性能。

Dec, 2022

具身导航的 LLM 发展

近年来，大型语言模型（LLMs）如生成预训练变换器（GPT）的快速进展引起了越来越多的关注，由于它们在各种实际应用中的潜力。LLMs 与具身智能的应用已成为一个重要的研究领域，其中导航任务尤为引人注目，因为它们需要对环境有深刻的理解和快速准确的决策能力。本文全面总结了 LLMs 与具身智能之间的共生关系，重点关注导航领域。它回顾了最先进的模型、研究方法，并评估了现有具身导航模型和数据集的优缺点。最后，根据当前研究，阐明了 LLMs 在具身智能中的作用，并预测了未来的研究方向。本调查的研究清单可在此 https URL 上找到。

Nov, 2023

通过交互式基于语境的语言指导重新定义具有代表性的代理人能力，改变以人为中心的 AI 协作

本文介绍了一种交互式的 “体现代理” 系统，它具有适应性，能够有效地处理自然语言指令，并提供反馈。同时，还介绍了一种用于收集有关该系统的大量文本指令的众包工具，以及该系统具有学习能力的数据集和基线模型。

May, 2023