Voice2Action: 語言模型在虛擬現實中作為高效實時互動的代理
本研究介绍了一种创新方法,利用 VR 环境中的 VLMs(Visual Language Models)来增强用户交互和任务效率,通过自然语言处理实现实时、直观的用户交互,不依赖于视觉文本指令。使用语音识别和文本转语音技术,使用户与 VLM 之间实现无缝通信,有效地引导用户完成复杂任务。初步实验结果显示,使用 VLMs 不仅能够缩短任务完成时间,还能提高用户舒适度和任务参与度,相较于传统的 VR 交互方法。
May, 2024
本文研究大型语言模型在互动环境中是否可以利用所学的世界知识来执行高层任务,并提出了一种条件方法,将语言模型生成的中级计划语义上翻译为合适的操作以提高执行性能。在 VirtualHome 环境中的实证评估结果表明,该方法在可执行性方面显著优于大型语言模型基线。
Jan, 2022
利用大型语言模型和视觉语言模型,我们的研究致力于解决数字助理执行各种用户任务的挑战,特别是在基于指令的移动设备控制领域。通过与用户界面进行交互,我们的模型利用设备屏幕的视觉输入并模拟人类般的交互,包括点击和滑动等手势。这种输入和输出空间的广泛适用性使得我们的代理能够与设备上的任何应用程序进行交互。与以往方法不同的是,我们的模型不仅仅操作单个屏幕图像,还通过过去截图序列和相应操作生成视觉语言句子。在具有挑战性的 “Android in the Wild” 基准测试中评估我们的方法表明其有效性和潜力。
Apr, 2024
通过语言建模,本研究旨在提高 Minecraft 数据集中群体构建任务的任务理解,这些模型集中于基于多模态理解和任务导向对话理解任务,展示了比现有方法大幅改进的实验结果,为未来研究指明了一个有前景的方向。
Feb, 2024
本文描述了一个支持扩展多模态交互的系统,通过使用大型语言模型 (LLMs) 将用户的英语语句映射到领域特定的代码,我们探索了 LLMs 在上下文敏感性方面捕捉演算发言者意图的程度。
Oct, 2023
通过使用 Unity 游戏引擎和文本交互,我们提出了大型混合现实语言模型(LLMR)框架,该框架用于实时创建和修改交互式混合现实体验,并通过包括场景理解、任务规划、自调试和内存管理等技术,使 LLMR 在平均错误率上比标准 GPT-4 提高了 4 倍。通过多个示例场景的展示、创作和修改任务的评估以及一个使用性研究,我们证明了 LLMR 具有跨平台的互操作性,并且参与者对系统有积极的体验并愿意再次使用。
Sep, 2023
本文提出了一种整合环境对象和对象关系作为额外输入的方法,从而产生与场景中的对象相映射的行动计划,并设计了一种新的评分函数,该方法在 VirtualHome 模拟器和 ActivityPrograms 知识库中取得了可靠的结果,其行动计划的正确性和可执行性分别优于之前的研究约 5.3%和 8.9%。
Oct, 2022
我们通过在文本世界的任务中,将大型语言模型(LLMs)的反思结果(通过分析错误改进的行为)融入到视觉世界的相同任务中来训练一个居住在视觉世界的视觉语言模型(VLM)代理,从而使得这个多模态的具身代理(EMMA)能够快速适应视觉世界的动态,并在 ALFWorld 基准测试中表现出优越的性能。
Nov, 2023
通过结合大规模语言模型作为语音界面,我们提出了一个框架,用于将大规模语言模型应用于物理辅助机器人,以实现高水平任务规划和代码生成,并通过实证研究为物理辅助机器人的语音界面设计提供指导。
Apr, 2024