OmniActions: 使用 LLMs 预测对现实世界多模态感知输入的数码行为

May, 2024

OmniActions: 使用 LLMs 预测对现实世界多模态感知输入的数码行为

OmniActions: Predicting Digital Actions in Response to Real-World Multimodal Sensory Inputs with LLMs

Jiahao Nick Li, Yan Xu, Tovi Grossman, Stephanie Santosa, Michelle Li

TL;DR未来交互界面需要基于用户背景智能地提供快速访问数字行动以减少对多模态信息的摩擦。我们通过一个日记研究搜集数据，生成了数字后续行动的整体设计空间，并使用大型语言模型对多模态感知输入进行处理和预测行动。通过定量评估不同的语言模型技术，我们找到了最有效的技术，并通过交互原型收集了初步用户反馈。

Abstract

The progression to "pervasive augmented reality" envisions easy access to multimodal information continuously. However, in many everyday scenarios, users are occupied physically, cognitively or socially. This may

pervasive augmented reality interactive interfaces multimodal information digital actions large language models

发现论文，激发创造

学习多模态环境中物理动作的影响

通过加入图像和文本等多种形式的感官信息以及使用对象的潜在表示对 LLM 进行扩展，以更好地预测动作结果，进而推广并学习物理常识推理。

Jan, 2023

与环境对话：使用大型语言模型进行交互式多模态感知

在机器人的交互感知中，使用预先训练的大型语言模型（LLMs）作为交互感知框架，并将其应用于决策问题以及规划多模态环境中的任务执行，这样可以通过感知来指导认知行为和高层次的决策规划，这种方法可以显著提高任务完成的准确性和效率。

Mar, 2023

将苹果与橙子进行比较：在物体分类任务中使用 LLM 强化的多模态意图预测

应用大型语言模型进行人机交互中人类意图推断的 hierarchical 方法评估

Apr, 2024

Voice2Action: 語言模型在虛擬現實中作為高效實時互動的代理

使用 Voice2Action 框架，在虚拟现实环境中通过分析声音信号和文本命令，进行分级处理和执行任务，以提高效率。

Sep, 2023

MISAR：一种具备增强现实的多模态指导系统

创新方法利用大语言模型融合视觉、听觉和语境模态，以提高增强现实系统的状态估计，为更自适应的增强现实系统迈出了一步。

Oct, 2023

使用 LLMs 增强端到端自主驾驶模仿学习的多模态记号提示

利用大型语言模型（LLMs）与强化学习相结合的混合端到端学习框架，通过基于多模态提示标记的基本驾驶模仿学习与 LLMs 的结合，来提高自动驾驶性能。

Apr, 2024

在行动中联系多模态大型语言模型

通过研究行为空间适配器，我们发现多模态大型语言模型在融入多种方法并处理连续行为和离散行为时可以获得最佳性能。

Jun, 2024

LALM：基于语言模型的长期行动预测

使用语言模型的长期动作预测方法 (LALM) 在 egocentric vision 中取得了领先地位，通过整合动作识别模型与视觉 - 语言模型，利用过去的事件信息进行动作预测，达到了在不同复杂活动中的泛化能力。

Nov, 2023

LL3DA：面向全方位三维理解、推理和规划的视觉交互指令调整

LL3DA 是一种大型语言 3D 助手，可以直接接收点云输入，并对文本指令和视觉提示进行回应，可以帮助大型多模态模型更好地理解人类互动，并在杂乱的 3D 场景中消除歧义。实验证明，LL3DA 在 3D 密集字幕和 3D 问答方面取得了显著成果，并超越了各种 3D 视觉语言模型。

Nov, 2023

MultiPLY：一个多感官，以物体为中心的基于体验的大型语言模型在 3D 世界中

为了研究多感官交互和语言模型之间的相关性，我们提出了 MultiPLY，一个多感官体验的大型语言模型。通过将多感官交互数据引入大型语言模型，包括视觉、听觉、触觉和热觉信息，我们能够建立单词、行为和感知之间的关联。

Jan, 2024