STEVE-1：Minecraft 文本与行为生成模型

Jun, 2023

STEVE-1：Minecraft 文本与行为生成模型

STEVE-1: A Generative Model for Text-to-Behavior in Minecraft

Shalev Lifshitz, Keiran Paster, Harris Chan, Jimmy Ba, Sheila McIlraith

TL;DR本文介绍了一种叫 STEVE-1 的新方法，该方法使用了 instruction-tuned Video Pretraining (VPT) 模型来构建基于文本的 AI 模型，可在 Minecraft 游戏中执行开放式指令，成本低，性能出色。

Abstract

Constructing ai models that respond to text instructions is challenging, especially for sequential decision-making tasks. This work introduces an instruction-tuned →

ai models sequential decision-making video pretraining minecraft open-ended instruction

发现论文，激发创造

STEVE 系列：在 Minecraft 中逐步构建代理系统

通过在 Minecraft 环境中部署 STEVE 系列代理人系统，使用大型语言模型 (LLM) 作为核心，我们能够以更高效的方式完成基本任务、导航以及创造性任务，其效率超过先前的最先进方法的 2.5 倍到 7.3 倍。

Jun, 2024

目视与思考：虚拟环境中的具身智能体

STEVE 是一个在 Minecraft 虚拟环境中基于大型语言模型的综合和具有远见的具象代理，其三个关键组成部分是视觉感知、语言指导和代码动作，通过视觉信息解释、迭代推理和可执行技能行为生成，STEVE 在 Minecraft 环境中实现更快的技能解锁和方块搜索任务。

Nov, 2023

视频预训练（VPT）：通过观看未标记的在线视频学习行为

该研究探索了如何利用半监督式模仿学习的方法，在游戏领域中通过预训练行为先验模型来实现强化学习，从而达到人类甚至更高的行为水平。

Jun, 2022

Minedreamer: 通过想象链学习模拟世界控制中的指令跟随

设计一种通用 - 具身化代理，通过使用多模态大型语言模型和扩散模型的先进技术，并利用想象链机制，实现低级控制信号生成中的指令跟随能力的增强。MineDreamer 在 Minecraft 模拟器上开发，能够稳定地按照单步和多步指令执行，胜过通用代理基准，并提高了其性能，并通过定性分析显示其对开放世界的泛化和理解能力。

Mar, 2024

从像素和自然语言指令中学习解决体素建筑任务

采用预训练语言模型生成行动计划是一种很有前途的研究策略，本文提出了一种新的方法，将语言模型与强化学习相结合，用于在类似 Minecraft 的环境中按照自然语言指令构建对象，在 IGLU 2022 竞赛中形成了强化学习基线。

Nov, 2022

Steve-Eye: 使用视觉感知为基于 LLM 的具身化智能体装备开放世界

本文提出了 Steve-Eye，一个端到端训练的大型多模态模型，用于解决大语言模型在直观理解环境和生成易于理解响应方面的挑战，并基于广泛实验验证了该模型在战略行为和规划方面的能力。

Oct, 2023

检索增强的代码生成用于情境动作生成：Minecraft 案例研究

在该研究中，我们调查了使用大型语言模型（LLMs）来预测建造者采取的动作序列，在 Minecraft 协作建筑任务中，建筑师通过指示建造者使用 3D 方块来组装指定结构。借助 LLMs 的上下文学习能力，我们使用少样本启发式技术显著提高了性能，并对性能差距进行了详细分析，以作为未来工作的参考。

Jun, 2024

CLIP2Video: 通过 Image CLIP 掌握视频文本检索

CLIP2Video 网络通过将图像语言预训练模型转移到视频文本检索，采用端到端方式，区别于领先的视频和语言学习方法的多模态交互，我们利用预训练的图像语言模型，进一步简化为两个具体阶段的框架，使其能够在相对较少的数据集上进行训练，并通过 Temporal Difference Block 和 Temporal Alignment Block 来提升多模态相关性，我们在 MSR-VTT，MSVD 和 VATEX 等主要文本到视频和视频到文本检索基准上实现了最新的检索准确性记录。

Jun, 2021

Instruct-Video2Avatar: 使用说明的视频头像生成

本文提出一种使用图像条件扩散模型和神经辐射场方法，通过短单眼 RGB 视频和文本说明合成编辑后的、照片逼真的可动 3D 神经头像的方法。在各种主题的定量和定性研究中，我们的方法胜过了现有技术。

Jun, 2023

InstructVid2Vid：自然语言控制视频编辑

本文介绍了一种基于预训练模型和条件式 3D U-Net 结构的、可以通过自然语言指令编辑视频的方法，同时提出了一种新的视帧差异损失函数，可以在训练过程中提高生成视频的时序一致性，实验表明该方法生成的视频质量高、时序连贯，能够进行多种视频编辑操作。

May, 2023