使用语音助手引用屏幕文字

ACLJun, 2023

Referring to Screen Texts with Voice Assistants

Shruti Bhargava, Anand Dhoot, Ing-Marie Jonsson, Hoang Long Nguyen, Alkesh Patel...

TL;DR本文提出一种基于模块化模型和从 UI 中提取的文本的新型体验，旨在改善助手理解用户语境的能力，涉及语音助手，参考理解，数据集等。

Abstract

Voice assistants help users make phone calls, send messages, create events, navigate, and do a lot more. However, assistants have limited capacity to understand their users' context. In this work, we aim to take a step in this direction. Our work dives into a new experience for users to refer to phone numbers, addresses, email addresses, URLs, and dates on t

voice assistant reference understanding dataset modular model text extraction

发现论文，激发创造

UGIF: UI 基础指令跟踪

为帮助新手学习如何自己使用智能手机，我们提出了一种基于自然语言的指导代理，然后使用大型语言模型解析自然语言说明并生成可以在设备上执行的宏。我们介绍了一个多语言、多模式的 UI 基础数据集 UGIF-DataSet，我们对不同的大型语言模型的性能进行比较，发现任务完成成功率为英语 UI 为 48%，非英语语言的性能下降到 32%。

Nov, 2022

ScreenAI：面向用户界面和信息图的视觉语言模型

屏幕用户界面、信息图表、ScreenAI、视觉 - 语言模型和基于 UI 和信息图表的任务是该研究论文的关键词和概要。

Feb, 2024

重写剧本：为语音交互适应文本指令

语音助手面临指导复杂任务的困境，阅读书面指示的方法存在局限性。本研究观察了 12 位参与者使用先进的语音助手在家烹饪，发现目前的方法导致了九个挑战，包括隐藏整体情况、提供过多信息以及无法传达信息。通过语音转化书面指示为口头交流形式，提出了八种改进方式，并展望了自然语言处理的现代进展如何帮助智能代理有效地指导用户完成复杂任务。

Jun, 2023

增强虚拟助手智能力：针对元数据以外的实例级用户意图的精准区域定位

本文提出了一种新颖的跨模态深度学习方法，用于处理基于应用程序屏幕像素的实例级用户意图，同时在没有应用程序元数据的情况下预测目标操作区域和检测屏幕上的绝对按钮区域，并通过用户研究测试集上达到了 64.43% 的准确率。

Jun, 2023

利用会话式人工智能助手协作进行用户体验评估：提出问题及其提问方法（声音 vs 文本）

探究将交互式对话助手引入 UX 评估以解决分析效率和评估者自主性问题的研究，通过用户测试设计探针，发现参与者主要咨询用户行为、用户的心理模型、AI 助手的帮助、产品和任务信息以及用户组成等方面的信息，并提出了未来设计交互式对话 AI 助手的设计建议。

Mar, 2023

语音助手的追问建议通过语音提示

通过使用序列到序列的转换器，我们研究了语音助手的采用、声控搜索和查询建议等相关主题，并提供了一种有效的方法来生成紧凑且自然的语音暗示。

Oct, 2023

将自然语言指令映射到移动 UI 操作序列

本研究使用 Transformer 实现自然语言指令到移动用户界面动作的语义映射，并结合数据标注与合成技术，对其进行了完整的任务评估，并在 PIXELHELP 数据集上达到了 70.59% 的准确率。

May, 2020

Screen2Words: 基于多模态学习的自动移动 UI 摘要

Screen2Words 是一种新颖的屏幕总结方法，它可以将 UI 屏幕的基本信息自动封装到一个连贯的语言短语中，并通过多模态学习，使用深度模型，为移动屏幕生成高质量的总结，为语言和用户界面的进一步桥梁奠定基础。

Aug, 2021

告诉我下一步：通用用户界面表示的文本预测

通过预训练目标 Textual Foresight 来学习移动应用程序用户界面的表示，该方法能生成给定当前界面和本地操作后的未来界面状态的全局文本描述，并在 UI 生成任务上比现有技术性能提高了 2%，训练数据量减少 28 倍。使用新构建的移动应用程序数据集 OpenApp，发现 Textual Foresight 相比其他基准方法平均任务性能提高了 5.7%，并且使用的数据量减少了 2 倍。

Jun, 2024

音频视觉场景感知对话的上下文、注意力和音频特征探索

通过结合多模式注意力机制与端到端音频分类卷积神经网络，实现智能虚拟助手（IVA）对语音、视觉场景的理解与自然对话，超越了基准系统表现。

Dec, 2018