目视与思考：虚拟环境中的具身智能体

Nov, 2023

目视与思考：虚拟环境中的具身智能体

See and Think: Embodied Agent in Virtual Environment

Zhonghan Zhao, Wenhao Chai, Xuan Wang, Li Boyi, Shengyu Hao...

TL;DRSTEVE 是一个在 Minecraft 虚拟环境中基于大型语言模型的综合和具有远见的具象代理，其三个关键组成部分是视觉感知、语言指导和代码动作，通过视觉信息解释、迭代推理和可执行技能行为生成，STEVE 在 Minecraft 环境中实现更快的技能解锁和方块搜索任务。

Abstract

large language models (LLMs) have achieved impressive progress on several open-world tasks. Recently, using LLMs to build embodied agents has been a hotspot. In this paper, we propose →

large language models embodied agents steve minecraft vision perception

发现论文，激发创造

STEVE 系列：在 Minecraft 中逐步构建代理系统

通过在 Minecraft 环境中部署 STEVE 系列代理人系统，使用大型语言模型 (LLM) 作为核心，我们能够以更高效的方式完成基本任务、导航以及创造性任务，其效率超过先前的最先进方法的 2.5 倍到 7.3 倍。

Jun, 2024

Steve-Eye: 使用视觉感知为基于 LLM 的具身化智能体装备开放世界

本文提出了 Steve-Eye，一个端到端训练的大型多模态模型，用于解决大语言模型在直观理解环境和生成易于理解响应方面的挑战，并基于广泛实验验证了该模型在战略行为和规划方面的能力。

Oct, 2023

我们真的需要一个复杂的代理系统吗？将具体化的代理蒸馏成单一模型

STEVE-2 使用层次化知识蒸馏框架，将大型语言模型和多模态语言模型集成到开放式任务中的具身代理中，实现了复杂的任务执行以及对可执行动作的生成。STEVE-2 在导航和创作任务上的广泛评估表明，在开放式任务中，其表现优于其他方法，性能提升了 1.4-7.3 倍。

Apr, 2024

STEVE-1：Minecraft 文本与行为生成模型

本文介绍了一种叫 STEVE-1 的新方法，该方法使用了 instruction-tuned Video Pretraining (VPT) 模型来构建基于文本的 AI 模型，可在 Minecraft 游戏中执行开放式指令，成本低，性能出色。

Jun, 2023

三维环境中的具身综合应用智能体

利用大规模知识和学习方案以及大型语言模型（LLM），最近的机器学习模型在构建通用性代理人方面取得显著成功，表现出在不同领域（包括自然语言处理、计算机视觉和机器人技术）解决通用任务的能力。然而，这些模型在理解和与三维世界交互方面仍存在显著挑战。我们认为这一限制显著阻碍了当前模型执行现实世界任务和进一步实现通用智能的能力。为此，我们提出了一种根植于三维世界中，并具有多模态和多任务的通用代理人，其在感知、根据、推理、规划和行动方面表现出色。我们的提出的代理人，称为 LEO，在两个阶段进行训练：（一）三维视觉语言对齐，（二）三维视觉语言行动指导调整。为了促进训练，我们细致地策划并生成统计规模和复杂性的物体级和场景级多模态任务的大规模数据集，需要对三维世界进行深入的理解和交互。通过严格的实验证明了 LEO 在广泛任务范围中的出色能力，包括三维字幕、问题解答、根植式推理、根植式导航和机器人操作。我们的消融实验结果进一步为未来根植式通用代理的发展提供了有价值的见解。

Nov, 2023

从像素和自然语言指令中学习解决体素建筑任务

采用预训练语言模型生成行动计划是一种很有前途的研究策略，本文提出了一种新的方法，将语言模型与强化学习相结合，用于在类似 Minecraft 的环境中按照自然语言指令构建对象，在 IGLU 2022 竞赛中形成了强化学习基线。

Nov, 2022

大型语言模型作为 Minecraft 代理

本研究探讨在 Minecraft 代理设置中应用和评估大型语言模型（LLMs），介绍澄清问题并研究改进的挑战和机会，同时提供了与代理互动的在线平台，并与先前的工作进行了评估。

Feb, 2024

Voyager: 具备大型语言模型的开放式智能体

论文介绍了 Voyager：基于 LLM 的具身化终身学习代理，其由自动课程、可执行代码的技能库和新的迭代提示机制组成，可以在 Minecraft 中探索世界、获得多种技能和进行创新发现。在实证研究中，Voyager 表现出强大的上下文终身学习能力，在 Minecraft 游戏中比其他技术更快地解锁关键技术树里程碑，开发者在 https URL 上公开了代码库和提示。

May, 2023

利用语言模型在虚拟环境中改善代理间的交互

通过语言建模，本研究旨在提高 Minecraft 数据集中群体构建任务的任务理解，这些模型集中于基于多模态理解和任务导向对话理解任务，展示了比现有方法大幅改进的实验结果，为未来研究指明了一个有前景的方向。

Feb, 2024

检索增强的代码生成用于情境动作生成：Minecraft 案例研究

在该研究中，我们调查了使用大型语言模型（LLMs）来预测建造者采取的动作序列，在 Minecraft 协作建筑任务中，建筑师通过指示建造者使用 3D 方块来组装指定结构。借助 LLMs 的上下文学习能力，我们使用少样本启发式技术显著提高了性能，并对性能差距进行了详细分析，以作为未来工作的参考。

Jun, 2024