STEVE-1:Minecraft 文本与行为生成模型
通过在 Minecraft 环境中部署 STEVE 系列代理人系统,使用大型语言模型 (LLM) 作为核心,我们能够以更高效的方式完成基本任务、导航以及创造性任务,其效率超过先前的最先进方法的 2.5 倍到 7.3 倍。
Jun, 2024
STEVE 是一个在 Minecraft 虚拟环境中基于大型语言模型的综合和具有远见的具象代理,其三个关键组成部分是视觉感知、语言指导和代码动作,通过视觉信息解释、迭代推理和可执行技能行为生成,STEVE 在 Minecraft 环境中实现更快的技能解锁和方块搜索任务。
Nov, 2023
设计一种通用 - 具身化代理,通过使用多模态大型语言模型和扩散模型的先进技术,并利用想象链机制,实现低级控制信号生成中的指令跟随能力的增强。MineDreamer 在 Minecraft 模拟器上开发,能够稳定地按照单步和多步指令执行,胜过通用代理基准,并提高了其性能,并通过定性分析显示其对开放世界的泛化和理解能力。
Mar, 2024
采用预训练语言模型生成行动计划是一种很有前途的研究策略,本文提出了一种新的方法,将语言模型与强化学习相结合,用于在类似 Minecraft 的环境中按照自然语言指令构建对象,在 IGLU 2022 竞赛中形成了强化学习基线。
Nov, 2022
本文提出了 Steve-Eye,一个端到端训练的大型多模态模型,用于解决大语言模型在直观理解环境和生成易于理解响应方面的挑战,并基于广泛实验验证了该模型在战略行为和规划方面的能力。
Oct, 2023
在该研究中,我们调查了使用大型语言模型(LLMs)来预测建造者采取的动作序列,在 Minecraft 协作建筑任务中,建筑师通过指示建造者使用 3D 方块来组装指定结构。借助 LLMs 的上下文学习能力,我们使用少样本启发式技术显著提高了性能,并对性能差距进行了详细分析,以作为未来工作的参考。
Jun, 2024
CLIP2Video 网络通过将图像语言预训练模型转移到视频文本检索,采用端到端方式,区别于领先的视频和语言学习方法的多模态交互,我们利用预训练的图像语言模型,进一步简化为两个具体阶段的框架,使其能够在相对较少的数据集上进行训练,并通过 Temporal Difference Block 和 Temporal Alignment Block 来提升多模态相关性,我们在 MSR-VTT,MSVD 和 VATEX 等主要文本到视频和视频到文本检索基准上实现了最新的检索准确性记录。
Jun, 2021
本文提出一种使用图像条件扩散模型和神经辐射场方法,通过短单眼 RGB 视频和文本说明合成编辑后的、照片逼真的可动 3D 神经头像的方法。在各种主题的定量和定性研究中,我们的方法胜过了现有技术。
Jun, 2023
本文介绍了一种基于预训练模型和条件式 3D U-Net 结构的、可以通过自然语言指令编辑视频的方法,同时提出了一种新的视帧差异损失函数,可以在训练过程中提高生成视频的时序一致性,实验表明该方法生成的视频质量高、时序连贯,能够进行多种视频编辑操作。
May, 2023