Voice2Action: 語言模型在虛擬現實中作為高效實時互動的代理

Sep, 2023

Voice2Action: 語言模型在虛擬現實中作為高效實時互動的代理

Voice2Action: Language Models as Agent for Efficient Real-Time Interaction in Virtual Reality

Yang Su

TL;DR使用 Voice2Action 框架，在虚拟现实环境中通过分析声音信号和文本命令，进行分级处理和执行任务，以提高效率。

Abstract

large language models (LLMs) are trained and aligned to follow natural language instructions with only a handful of examples, and they are prompted as task-driven autonomous agents to adapt to various sources of execution environments. However, deploying agent LLMs in →

large language models virtual reality voice2action hierarchical analysis efficiency

发现论文，激发创造

VR-GPT：智能虚拟现实应用的视觉语言模型

本研究介绍了一种创新方法，利用 VR 环境中的 VLMs（Visual Language Models）来增强用户交互和任务效率，通过自然语言处理实现实时、直观的用户交互，不依赖于视觉文本指令。使用语音识别和文本转语音技术，使用户与 VLM 之间实现无缝通信，有效地引导用户完成复杂任务。初步实验结果显示，使用 VLMs 不仅能够缩短任务完成时间，还能提高用户舒适度和任务参与度，相较于传统的 VR 交互方法。

May, 2024

语言模型作为零 - shot 规划器：提取行动知识用于具身代理

本文研究大型语言模型在互动环境中是否可以利用所学的世界知识来执行高层任务，并提出了一种条件方法，将语言模型生成的中级计划语义上翻译为合适的操作以提高执行性能。在 VirtualHome 环境中的实证评估结果表明，该方法在可执行性方面显著优于大型语言模型基线。

Jan, 2022

训练一种视觉语言模型作为智能手机助手

利用大型语言模型和视觉语言模型，我们的研究致力于解决数字助理执行各种用户任务的挑战，特别是在基于指令的移动设备控制领域。通过与用户界面进行交互，我们的模型利用设备屏幕的视觉输入并模拟人类般的交互，包括点击和滑动等手势。这种输入和输出空间的广泛适用性使得我们的代理能够与设备上的任何应用程序进行交互。与以往方法不同的是，我们的模型不仅仅操作单个屏幕图像，还通过过去截图序列和相应操作生成视觉语言句子。在具有挑战性的 “Android in the Wild” 基准测试中评估我们的方法表明其有效性和潜力。

Apr, 2024

利用语言模型在虚拟环境中改善代理间的交互

通过语言建模，本研究旨在提高 Minecraft 数据集中群体构建任务的任务理解，这些模型集中于基于多模态理解和任务导向对话理解任务，展示了比现有方法大幅改进的实验结果，为未来研究指明了一个有前景的方向。

Feb, 2024

基于大语言模型的对话式生成自动驾驶仿真场景

本文描述了一个支持扩展多模态交互的系统，通过使用大型语言模型 (LLMs) 将用户的英语语句映射到领域特定的代码，我们探索了 LLMs 在上下文敏感性方面捕捉演算发言者意图的程度。

Oct, 2023

LLMR：使用大型语言模型实时提示交互式世界

通过使用 Unity 游戏引擎和文本交互，我们提出了大型混合现实语言模型（LLMR）框架，该框架用于实时创建和修改交互式混合现实体验，并通过包括场景理解、任务规划、自调试和内存管理等技术，使 LLMR 在平均错误率上比标准 GPT-4 提高了 4 倍。通过多个示例场景的展示、创作和修改任务的评估以及一个使用性研究，我们证明了 LLMR 具有跨平台的互操作性，并且参与者对系统有积极的体验并愿意再次使用。

Sep, 2023

使用具有环境意识的语言模型生成可执行的行动计划

本文提出了一种整合环境对象和对象关系作为额外输入的方法，从而产生与场景中的对象相映射的行动计划，并设计了一种新的评分函数，该方法在 VirtualHome 模拟器和 ActivityPrograms 知识库中取得了可靠的结果，其行动计划的正确性和可执行性分别优于之前的研究约 5.3％和 8.9％。

Oct, 2022

视觉语言行为模型在具身人工智能中的调查

综合调查了深度学习、多模态模型、视觉 - 语言 - 动作模型、具身人工智能的快速发展。

May, 2024

通过并行的文本世界训练的具有多模态的体验智能体

我们通过在文本世界的任务中，将大型语言模型（LLMs）的反思结果（通过分析错误改进的行为）融入到视觉世界的相同任务中来训练一个居住在视觉世界的视觉语言模型（VLM）代理，从而使得这个多模态的具身代理（EMMA）能够快速适应视觉世界的动态，并在 ALFWorld 基准测试中表现出优越的性能。

Nov, 2023

VoicePilot: 利用语言模型作为机器人辅助的语音界面

通过结合大规模语言模型作为语音界面，我们提出了一个框架，用于将大规模语言模型应用于物理辅助机器人，以实现高水平任务规划和代码生成，并通过实证研究为物理辅助机器人的语音界面设计提供指导。

Apr, 2024