构建虚拟世界：从提示到实现的步骤

Nov, 2022

构建虚拟世界：从提示到实现的步骤

Steps towards prompt-based creation of virtual worlds

Jasmine Roberts, Andrzej Banburski-Fahey, Jaron Lanier

TL;DR本文介绍了利用大型语言模型进行代码生成的方法，以实现在虚拟现实世界中运用生成过程、计算机协助创作游戏和制作静态内容，同时探讨了如何评估和基准测试由生成模型创建的交互体验以及 AI 辅助共同创作在虚拟现实中的挑战。

Abstract

large language models trained for code generation can be applied to speaking virtual worlds into existence (creating virtual worlds). In t

large language models virtual worlds generative processes game mechanics vr

发现论文，激发创造

VR-GPT：智能虚拟现实应用的视觉语言模型

本研究介绍了一种创新方法，利用 VR 环境中的 VLMs（Visual Language Models）来增强用户交互和任务效率，通过自然语言处理实现实时、直观的用户交互，不依赖于视觉文本指令。使用语音识别和文本转语音技术，使用户与 VLM 之间实现无缝通信，有效地引导用户完成复杂任务。初步实验结果显示，使用 VLMs 不仅能够缩短任务完成时间，还能提高用户舒适度和任务参与度，相较于传统的 VR 交互方法。

May, 2024

超越现实：生成智能在元宇宙的关键角色

这篇研究论文通过全面探索生成式人工智能技术如何塑造元宇宙，将其转变为一个动态、身临其境和互动的虚拟世界，提供了未来元宇宙的指南，并向读者展示了如何利用生成式人工智能的力量创造沉浸式虚拟世界。

Jul, 2023

Voice2Action: 語言模型在虛擬現實中作為高效實時互動的代理

使用 Voice2Action 框架，在虚拟现实环境中通过分析声音信号和文本命令，进行分级处理和执行任务，以提高效率。

Sep, 2023

零样本和少样本学习在生成模型创意应用的人机交互中的机遇与挑战

通过提示将零样学习和少样学习赋予 AI 新任务的方法是一种用于人工智能交互的新范例。本文分析了使用提示作为新范式的交互式创意应用程序的关键机遇和挑战，并提出了四个设计目标。我们重点关注创意写作的用例，提出了具体的 UI 设计草图，HCI 和 AI 研究社区可以以此为起点，开发出适当的用户界面，用于零样学习和少样学习模型。

Sep, 2022

基于矢量量化提示学习的释义生成

通过利用预训练模型和实例相关提示，本文提出生成多样且高质量的复述词句的方法，使用向量量化的提示来控制预训练模型的生成。实验表明此方法在三个基准数据集上取得了最新的最佳结果，包括 Quora、Wikianswers 和 MSCOCO。一旦被接受，我们将公开所有代码。

Nov, 2023

LLMR：使用大型语言模型实时提示交互式世界

通过使用 Unity 游戏引擎和文本交互，我们提出了大型混合现实语言模型（LLMR）框架，该框架用于实时创建和修改交互式混合现实体验，并通过包括场景理解、任务规划、自调试和内存管理等技术，使 LLMR 在平均错误率上比标准 GPT-4 提高了 4 倍。通过多个示例场景的展示、创作和修改任务的评估以及一个使用性研究，我们证明了 LLMR 具有跨平台的互操作性，并且参与者对系统有积极的体验并愿意再次使用。

Sep, 2023

为虚拟现实中的对话代理赋予声音

在虚拟现实中，通过多模式和沉浸式交互，可以极大地提升与对话代理的对话体验。本研究提出了一种开源架构，旨在简化虚拟环境中工作的对话代理的开发过程。该架构提供了将不同领域的对话代理以及自定义或基于云的语音识别和语音合成模型集成进来使交互具备语音功能的可能性。利用该架构，我们开发了两个对话原型，分别在非沉浸式显示器和虚拟现实头显中在数字健康领域运行。

Aug, 2023

虚拟现实用于理解人工智能驱动科学发现，在量子光学中的应用

研究表明，通过将分析过程转移到沉浸式虚拟现实 (VR) 环境中，可以帮助研究人员理解由人工智能生成的解决方案，进而发现新的解释和理解实验性量子光学，并且能够加快后续的发现迭代。

Feb, 2024

PLACES：用于社交对话综合的激励语言模型

使用专家编写的少量对话作为上下文示例，通过提示生成社交对话数据集，可在多方交流任务中创建更多的合成数据。与人类收集的对话相比，合成的多方交流在所有度量维度上都获得了更多的好评。

Feb, 2023

WorldGPT: 一个受 Sora 启发的视频 AI 代理，将文本和图像输入作为丰富的世界模型

通过使用基于 Sora 的多模态学习，利用文本提示和相关图像来构建熟练的世界模型框架，该方法在维护时间一致性和确保动作流畅性方面表现出强大的效果和创新性。

Mar, 2024