使用语音助手引用屏幕文字
为帮助新手学习如何自己使用智能手机,我们提出了一种基于自然语言的指导代理,然后使用大型语言模型解析自然语言说明并生成可以在设备上执行的宏。我们介绍了一个多语言、多模式的 UI 基础数据集 UGIF-DataSet,我们对不同的大型语言模型的性能进行比较,发现任务完成成功率为英语 UI 为 48%,非英语语言的性能下降到 32%。
Nov, 2022
语音助手面临指导复杂任务的困境,阅读书面指示的方法存在局限性。本研究观察了 12 位参与者使用先进的语音助手在家烹饪,发现目前的方法导致了九个挑战,包括隐藏整体情况、提供过多信息以及无法传达信息。通过语音转化书面指示为口头交流形式,提出了八种改进方式,并展望了自然语言处理的现代进展如何帮助智能代理有效地指导用户完成复杂任务。
Jun, 2023
本文提出了一种新颖的跨模态深度学习方法,用于处理基于应用程序屏幕像素的实例级用户意图,同时在没有应用程序元数据的情况下预测目标操作区域和检测屏幕上的绝对按钮区域,并通过用户研究测试集上达到了 64.43% 的准确率。
Jun, 2023
探究将交互式对话助手引入 UX 评估以解决分析效率和评估者自主性问题的研究,通过用户测试设计探针,发现参与者主要咨询用户行为、用户的心理模型、AI 助手的帮助、产品和任务信息以及用户组成等方面的信息,并提出了未来设计交互式对话 AI 助手的设计建议。
Mar, 2023
本研究使用 Transformer 实现自然语言指令到移动用户界面动作的语义映射,并结合数据标注与合成技术,对其进行了完整的任务评估,并在 PIXELHELP 数据集上达到了 70.59% 的准确率。
May, 2020
Screen2Words 是一种新颖的屏幕总结方法,它可以将 UI 屏幕的基本信息自动封装到一个连贯的语言短语中,并通过多模态学习,使用深度模型,为移动屏幕生成高质量的总结,为语言和用户界面的进一步桥梁奠定基础。
Aug, 2021
通过预训练目标 Textual Foresight 来学习移动应用程序用户界面的表示,该方法能生成给定当前界面和本地操作后的未来界面状态的全局文本描述,并在 UI 生成任务上比现有技术性能提高了 2%,训练数据量减少 28 倍。使用新构建的移动应用程序数据集 OpenApp,发现 Textual Foresight 相比其他基准方法平均任务性能提高了 5.7%,并且使用的数据量减少了 2 倍。
Jun, 2024
通过结合多模式注意力机制与端到端音频分类卷积神经网络,实现智能虚拟助手(IVA)对语音、视觉场景的理解与自然对话,超越了基准系统表现。
Dec, 2018