从用户界面轨迹识别用户目标

Jun, 2024

Identifying User Goals from UI Trajectories

Omri Berkovitch, Sapir Caduri, Noam Kahlon, Anatoly Efros, Avi Caciularu...

TL;DR介绍了从观察到的用户界面轨迹中抽取目标的任务，并提出了一种新的评估指标来评估特定用户界面环境下两个任务描述是否是释义关系。通过与用户界面自动化任务的逆关系，利用 Android-In-The-Wild 和 Mind2Web 数据集进行了实验，与人类和最先进的模型（GPT-4 和 Gemini-1.5 Pro）进行了比较，结果显示 Gemini 的表现优于 GPT 但仍不及人类，表明有很大的改进空间。

Abstract

autonomous agents that interact with graphical user interfaces (GUIs) hold significant potential for enhancing user experiences. To further improve these experiences, agents need to be personalized and proactive.

autonomous agents graphical user interfaces goal identification ui interactions evaluation metric

发现论文，激发创造

ASSISTGUI：面向任务的桌面图形用户界面自动化

使用大型语言模型的图形用户界面（GUI）自动化在处理复杂任务方面有很大潜力。本论文介绍了一个新的基准测试框架 AssistGUI，评估模型是否能够响应用户请求的任务，在 Windows 平台上操纵鼠标和键盘。实验结果显示，我们的 GUI Parser 和 Reasoning 机制在性能上优于现有方法，但在基准测试中，最佳模型的成功率仅为 46％。通过对当前方法的限制进行彻底分析，为未来在该领域取得突破奠定基础。

Dec, 2023

自主大型语言模型代理实现驱动意图的移动 GUI 测试

DroidAgent 是一个用于自动化 GUI 测试的智能代理，它基于大规模语言模型和支持机制以实现对 Android 应用的语义驱动自动测试，在实验评估中展现了较高水平的自主性和与应用的深度交互，根据测试结果，DroidAgent 相较于现有的 GUI 测试技术具有更高的活动覆盖率。

Nov, 2023

任务导向对话系统中未被识别的用户话语的洞察

本研究提出了一种用于处理商业任务导向型对话系统中未识别用户语句的端到端管道，包括特定定制聚类算法、新颖的聚类代表提取方法和聚类命名。通过评估这些组件，证明了它们在分析未识别用户请求方面的益处。

Apr, 2022

使用最小的人类代理和最大的用户任务成功学习端到端面向目标的对话

该研究提出了一种可端到端训练的神经目标导向对话系统方法，能通过智能地将对话转移给人工服务代理来处理新用户行为。该方法的三个目标是：最大化用户任务成功率，最小化对人工服务代理的负担，并通过人工代理的反馈进行在线学习，以进一步减轻其负担。实验结果表明所提出的方法能够有效实现这些目标。

Jul, 2019

UGIF: UI 基础指令跟踪

为帮助新手学习如何自己使用智能手机，我们提出了一种基于自然语言的指导代理，然后使用大型语言模型解析自然语言说明并生成可以在设备上执行的宏。我们介绍了一个多语言、多模式的 UI 基础数据集 UGIF-DataSet，我们对不同的大型语言模型的性能进行比较，发现任务完成成功率为英语 UI 为 48%，非英语语言的性能下降到 32%。

Nov, 2022

VideoGUI: 从教学视频中的 GUI 自动化基准

通过视频 GUI 评估可视化导向的图形用户界面 (GUI) 任务上 GUI 助手的表现，并发现当前最先进的大型多模态模型 GPT4o 在高级规划方面表现不佳。

Jun, 2024

你只看屏幕：多模态行动训练智能体

自主用户界面 (UI) 代理旨在通过与用户界面的自动交互来促进任务自动化。为了对齐于大型语言模型 (LLMs) 的输入 - 输出需求，现有方法在沙盒环境下开发，依赖外部工具和应用特定的 API 将环境解析为文本元素并解释预测的动作。为了减轻这些挑战，我们引入了 Auto-UI，这是一个多模态的解决方案，直接与界面交互，无需环境解析或依赖应用程序相关的 API。此外，我们提出了一种链式动作技术 —— 利用一系列中间的先前动作历史和未来动作计划 —— 以帮助代理决定执行什么动作。我们在一个新的设备控制基准 AITW 上评估了我们的方法，该基准包含 30K 个独特的指令，涵盖应用操作、网络搜索和网购等多步任务。实验结果显示，Auto-UI 实现了 90% 的动作类型预测准确率和 74% 的整体动作成功率。

Sep, 2023

通过结合计划识别和语言反馈来改进人类意图推理

对话式目标识别框架（Dialogue for Goal Recognition）通过询问关于噪声传感器数据和次优人类行动的澄清问题，使机器人能够纠正其对人类进展的信念，评估了 D4GR 在厨房和堆积领域的性能，结果显示 D4GR 框架在目标准确性方面比 HTN 高出 1%，在计划准确性方面比 HTN 高出 4-2%，比始终询问的预测模型在目标识别和计划识别方面表现更好，且比基线少问了 68% 的问题，文章还在厨房领域展示了一个真实世界机器人情景，验证了 D4GR 在现实环境中改进的计划和目标识别能力。

Oct, 2023

基于 GPT 架构和目标状态跟踪的增强式多领域对话系统的生成式用户模拟器

本文提出了一种以 GPT-2 模型为基础，利用目标状态追踪的生成式用户模拟器（GUS）来解决用户模拟器训练时遇到的挑战，并在 MultiWOZ2.1 数据集上通过交叉模型评估、基于语料库的评估和人类评估等方法对训练出的多个对话系统进行对比，证明了 GUS 在三个评估任务中的表现均优于基于议程的用户模拟器（ABUS）和其他削减模拟器。

Oct, 2022

GUI 课程：从通用视觉语言模型到多功能 GUI 代理

使用图形用户界面（Graphic User Interface）进行人机交互是访问各种数字工具的基本要素，在最近的视觉语言模型（Vision Language Models，VLMs）的发展中，发现了其潜力，可以开发多功能代理人来帮助人类完成图形用户界面导航任务，然而，现有的视觉语言模型在基本能力（OCR 和定位）和图形用户界面知识（图形用户界面元素的功能和控制方法）方面面临挑战，从而无法成为实用的图形用户界面代理人，为了解决这些挑战，我们提出了 GUICourse，一套用于从通用视觉语言模型中训练基于视觉的图形用户界面代理人的数据集，首先，我们引入了 GUIEnv 数据集来增强视觉语言模型的 OCR 和定位能力，然后，我们引入了 GUIAct 和 GUIChat 数据集来丰富其图形用户界面组件和交互的知识，实验证明，我们的图形用户界面代理人在常见的图形用户界面任务上比基准视觉语言模型具有更好的性能，即使是小型的图形用户界面代理人（具有 31 亿个参数），仍然能够在单步和多步图形用户界面任务上表现良好，最后，我们通过消融研究分析了训练阶段中这个代理人之间的不同变化，我们的源代码和数据集已在此 https URL 上发布。

Jun, 2024