三维环境中的具身综合应用智能体

Nov, 2023

三维环境中的具身综合应用智能体

An Embodied Generalist Agent in 3D World

Jiangyong Huang, Silong Yong, Xiaojian Ma, Xiongkun Linghu, Puhao Li...

TL;DR利用大规模知识和学习方案以及大型语言模型（LLM），最近的机器学习模型在构建通用性代理人方面取得显著成功，表现出在不同领域（包括自然语言处理、计算机视觉和机器人技术）解决通用任务的能力。然而，这些模型在理解和与三维世界交互方面仍存在显著挑战。我们认为这一限制显著阻碍了当前模型执行现实世界任务和进一步实现通用智能的能力。为此，我们提出了一种根植于三维世界中，并具有多模态和多任务的通用代理人，其在感知、根据、推理、规划和行动方面表现出色。我们的提出的代理人，称为 LEO，在两个阶段进行训练：（一）三维视觉语言对齐，（二）三维视觉语言行动指导调整。为了促进训练，我们细致地策划并生成统计规模和复杂性的物体级和场景级多模态任务的大规模数据集，需要对三维世界进行深入的理解和交互。通过严格的实验证明了 LEO 在广泛任务范围中的出色能力，包括三维字幕、问题解答、根植式推理、根植式导航和机器人操作。我们的消融实验结果进一步为未来根植式通用代理的发展提供了有价值的见解。

Abstract

Leveraging massive knowledge and learning schemes from large language models (LLMs), recent machine learning models show notable successes in building generalist agents that exhibit the capability of general-purp

massive knowledge learning schemes generalist agent 3d world embodied multi-modal agent

发现论文，激发创造

多模态基于世界模型的通用型智能体

通过引入多模态基础世界模型，GenRL 代理学习框架能够将基础视觉语言模型的表示与生成式世界模型的潜在空间连接和对齐，从而克服了现有基础视觉语言模型在不同领域上的问题，并在多个运动和操作领域展现了强大的多任务泛化性能。此外，通过引入无数据强化学习策略，还为通用性的综合模型基于强化学习的全能代理奠定了基础。

Jun, 2024

走向学习通用模型的行动导航

利用基于模式的指令将 LLMs 整合到具有身体导航功能的第一个通用模型 NaviLLM 中，该模型在各种任务中取得了最新的成果，并在 CVDN、SOON 和 ScanQA 上的性能达到了最新发展水平。

Dec, 2023

语言模型遇上世界模型：具身体验增强语言模型

本文提出了一种通过 fine-tuning 使用世界模型使大型自然语言模型获得基于物理环境的知识和技能，以帮助解决模型在简单的推理和规划中的局限性，实验证明这种方法能够提高基本的 LM 在 18 项下游任务上的性能，尤其是 1.3B 和 6B 的小 LM。

May, 2023

Agent3D-Zero：一种用于零样本三维理解的智能体

通过引入 Agent3D-Zero 框架，我们能够以零样本学习的方式处理三维场景理解问题，通过选择和分析一系列视点来促进三维理解，并利用自定义的视觉提示来增强模型的能力。大量实验证明了该框架在理解各种以前未见的三维环境方面的有效性。

Mar, 2024

LEGENT: 落地式代理人开放平台

通过使用 LEGENT 生成的数据，我们训练的视觉 - 语言 - 动作模型在具体任务中超越了 GPT-4V，展示了令人期待的泛化能力。

Apr, 2024

通过并行的文本世界训练的具有多模态的体验智能体

我们通过在文本世界的任务中，将大型语言模型（LLMs）的反思结果（通过分析错误改进的行为）融入到视觉世界的相同任务中来训练一个居住在视觉世界的视觉语言模型（VLM）代理，从而使得这个多模态的具身代理（EMMA）能够快速适应视觉世界的动态，并在 ALFWorld 基准测试中表现出优越的性能。

Nov, 2023

在模拟的 3D 世界中的基于场景语言学习

通过增强和无监督学习，训练具备最少先验知识的机器人在仿真 3D 环境中理解自然语言指令，将语言符号与周围物理环境的感知表示和相关的行动序列联系起来，实现语言含义的压缩和提取，从而揭示出关于语言基于感知概念的本质和潜力。

Jun, 2017

我们真的需要一个复杂的代理系统吗？将具体化的代理蒸馏成单一模型

STEVE-2 使用层次化知识蒸馏框架，将大型语言模型和多模态语言模型集成到开放式任务中的具身代理中，实现了复杂的任务执行以及对可执行动作的生成。STEVE-2 在导航和创作任务上的广泛评估表明，在开放式任务中，其表现优于其他方法，性能提升了 1.4-7.3 倍。

Apr, 2024

3D-VLA：一个基于三维视觉 - 语言 - 动作的生成式世界模型

提出了一种基于 3D 感知、推理和行动的生成世界模型的 3D-VLA 模型，通过引入一系列交互令牌与具体环境进行交互，训练一系列融入大规模 3D 语言模型的生成扩散模型以预测目标图像和点云，并在大规模数据集上的实验中展示了 3D-VLA 在推理、多模态生成和规划能力上的显著改进，展示了其在真实世界应用中的潜力。

Mar, 2024

与环境对话：使用大型语言模型进行交互式多模态感知

在机器人的交互感知中，使用预先训练的大型语言模型（LLMs）作为交互感知框架，并将其应用于决策问题以及规划多模态环境中的任务执行，这样可以通过感知来指导认知行为和高层次的决策规划，这种方法可以显著提高任务完成的准确性和效率。

Mar, 2023