May, 2024

OmniActions: 使用 LLMs 预测对现实世界多模态感知输入的数码行为

TL;DR未来交互界面需要基于用户背景智能地提供快速访问数字行动以减少对多模态信息的摩擦。我们通过一个日记研究搜集数据,生成了数字后续行动的整体设计空间,并使用大型语言模型对多模态感知输入进行处理和预测行动。通过定量评估不同的语言模型技术,我们找到了最有效的技术,并通过交互原型收集了初步用户反馈。