本研究介绍了一种创新方法,利用 VR 环境中的 VLMs(Visual Language Models)来增强用户交互和任务效率,通过自然语言处理实现实时、直观的用户交互,不依赖于视觉文本指令。使用语音识别和文本转语音技术,使用户与 VLM 之间实现无缝通信,有效地引导用户完成复杂任务。初步实验结果显示,使用 VLMs 不仅能够缩短任务完成时间,还能提高用户舒适度和任务参与度,相较于传统的 VR 交互方法。
May, 2024
这篇研究论文通过全面探索生成式人工智能技术如何塑造元宇宙,将其转变为一个动态、身临其境和互动的虚拟世界,提供了未来元宇宙的指南,并向读者展示了如何利用生成式人工智能的力量创造沉浸式虚拟世界。
Jul, 2023
使用 Voice2Action 框架,在虚拟现实环境中通过分析声音信号和文本命令,进行分级处理和执行任务,以提高效率。
Sep, 2023
通过提示将零样学习和少样学习赋予 AI 新任务的方法是一种用于人工智能交互的新范例。本文分析了使用提示作为新范式的交互式创意应用程序的关键机遇和挑战,并提出了四个设计目标。我们重点关注创意写作的用例,提出了具体的 UI 设计草图,HCI 和 AI 研究社区可以以此为起点,开发出适当的用户界面,用于零样学习和少样学习模型。
Sep, 2022
通过利用预训练模型和实例相关提示,本文提出生成多样且高质量的复述词句的方法,使用向量量化的提示来控制预训练模型的生成。实验表明此方法在三个基准数据集上取得了最新的最佳结果,包括 Quora、Wikianswers 和 MSCOCO。一旦被接受,我们将公开所有代码。
Nov, 2023
通过使用 Unity 游戏引擎和文本交互,我们提出了大型混合现实语言模型(LLMR)框架,该框架用于实时创建和修改交互式混合现实体验,并通过包括场景理解、任务规划、自调试和内存管理等技术,使 LLMR 在平均错误率上比标准 GPT-4 提高了 4 倍。通过多个示例场景的展示、创作和修改任务的评估以及一个使用性研究,我们证明了 LLMR 具有跨平台的互操作性,并且参与者对系统有积极的体验并愿意再次使用。
在虚拟现实中,通过多模式和沉浸式交互,可以极大地提升与对话代理的对话体验。本研究提出了一种开源架构,旨在简化虚拟环境中工作的对话代理的开发过程。该架构提供了将不同领域的对话代理以及自定义或基于云的语音识别和语音合成模型集成进来使交互具备语音功能的可能性。利用该架构,我们开发了两个对话原型,分别在非沉浸式显示器和虚拟现实头显中在数字健康领域运行。
Aug, 2023
研究表明,通过将分析过程转移到沉浸式虚拟现实 (VR) 环境中,可以帮助研究人员理解由人工智能生成的解决方案,进而发现新的解释和理解实验性量子光学,并且能够加快后续的发现迭代。
Feb, 2024
使用专家编写的少量对话作为上下文示例,通过提示生成社交对话数据集,可在多方交流任务中创建更多的合成数据。与人类收集的对话相比,合成的多方交流在所有度量维度上都获得了更多的好评。
Feb, 2023
通过使用基于 Sora 的多模态学习,利用文本提示和相关图像来构建熟练的世界模型框架,该方法在维护时间一致性和确保动作流畅性方面表现出强大的效果和创新性。
Mar, 2024