Holodeck: 语言引导的 3D 体验 AI 环境生成
本文介绍了利用大型语言模型进行代码生成的方法,以实现在虚拟现实世界中运用生成过程、计算机协助创作游戏和制作静态内容,同时探讨了如何评估和基准测试由生成模型创建的交互体验以及 AI 辅助共同创作在虚拟现实中的挑战。
Nov, 2022
通过 VRKitchen 的虚拟现实环境和集成功能,该研究使用现代人工智能方法驱动具有复杂任务能力的实体代理,使人类教师能够进行演示培训,为任务导向学习等领域的广泛应用提供了标准化的评估基准和数据收集工具。
Mar, 2019
当前的视觉说明模型假设图像是完整呈现场景的完美捕捉,然而在真实世界场景中一个图像可能没有提供良好的视角,从而限制了对细粒度场景的理解。为了克服这一限制,我们提出了一项名为 “实体说明” 的新任务,将视觉说明模型与导航能力相结合,使其能够主动探索场景,并减少来自次优视角的视觉模糊。我们构建了一个包含 10K 个混乱物体的 3D 场景和每个场景三个注释段落的 ET-Cap 数据集,以支持该任务。我们提出了一个级联实体说明模型(CaBOT),它由导航器和说明器组成,用于处理这个任务。广泛的实验证明我们的模型优于其他精心设计的基线模型。我们的数据集、代码和模型可在此链接获得。
Aug, 2023
通过增强和无监督学习,训练具备最少先验知识的机器人在仿真 3D 环境中理解自然语言指令,将语言符号与周围物理环境的感知表示和相关的行动序列联系起来,实现语言含义的压缩和提取,从而揭示出关于语言基于感知概念的本质和潜力。
Jun, 2017
研究了使用 GPT-4V 多模态大语言模型的基于代理的布局生成系统,通过顺序放置对象在虚拟空间中生成反映用户指令的布局,实验证实该方法能以高成功率生成反映用户指令的虚拟空间,并通过消融研究成功地确定了对行为生成性能改善做出贡献的要素。
May, 2024
我们提出了 ProcTHOR 框架,该框架可以进行过程生成,从而使我们能够在 Embodied AI 领域训练和评估有身体经验的代理人,该代理人可以在交互、导航和操作任务中表现出卓越的性能,并在多个基准测试中显示出现有最先进的结果。
Jun, 2022
一款使用生成图像和语言模型的模拟游戏系统,通过玩家的简短描述来重塑设置和 NPC 的各个方面,类似于虚构的 Holodeck,其中包含无限生成的幻想世界、可控制的 NPC 行为、幽默对话、成本与时间效率、玩家之间的合作和游戏事件的非确定性元素,使用 Unity 引擎的服务器 - 客户端架构实现,允许人类在模拟中存在并互动,即将在开放的 alpha 版本中提供,并期待与社区一同进行进一步开发。
Aug, 2023
介绍 Habitat 平台,该平台在实现高效的真实感三维模拟环境中培训虚拟机器人及相关任务如导航和嵌入式人工智能方法等方面做出了重大工程贡献。通过使用 Habitat 平台,作者在点 - 目标导航方面,通过比较学习与 SLAM 方法,发现当学习处理的数据量超出先前调查的数量级时,学习方法比 SLAM 方法更优。此外,在进行多个数据集和传感器的横向通用性实验时,作者发现仅使用深度 (D) 传感器的模型才具有数据集通用性。作者希望 Habitat 平台及其研究成果能够推动嵌入式人工智能领域的发展。
Apr, 2019
本文提出了一种基于自然语言输入的房屋设计生成模型,通过生成结构图和内部纹理来实现 3D 房屋模型设计。
Mar, 2020
这篇研究论文通过全面探索生成式人工智能技术如何塑造元宇宙,将其转变为一个动态、身临其境和互动的虚拟世界,提供了未来元宇宙的指南,并向读者展示了如何利用生成式人工智能的力量创造沉浸式虚拟世界。
Jul, 2023