GUI 奥德赛:一份针对移动设备的跨应用图形用户界面导航的综合数据集
在当前普及的智能手机和平板电脑的背景下,应用程序经常存在于两种平台上。尽管应用程序在手机和平板电脑上共享大部分图形用户界面(GUI)和功能,但开发人员通常需要从头开始重建平板电脑版本,导致成本升高,并浪费现有的设计资源。研究人员正在尝试收集数据并使用深度学习在自动 GUI 开发中提高开发人员的生产力。目前,有一些公开可访问的 GUI 页面数据集用于手机,但没有关于手机和平板电脑之间的配对 GUI 的数据集。这对于在自动 GUI 开发中采用深度学习构成了重大障碍。在本文中,我们介绍了 Papt 数据集,一个专门为 Android 手机和平板电脑定制的先驱性配对 GUI 数据集,包括来自 5593 个唯一应用程序对的 10035 个手机 - 平板电脑 GUI 页面对。我们提出了新颖的配对 GUI 收集方法以构建此数据集,并详细说明了它相对于当前流行数据集的优势。通过对此数据集的初步实验,我们分析了在自动 GUI 开发中利用深度学习所面临的挑战。
Oct, 2023
使用图形用户界面(Graphic User Interface)进行人机交互是访问各种数字工具的基本要素,在最近的视觉语言模型(Vision Language Models,VLMs)的发展中,发现了其潜力,可以开发多功能代理人来帮助人类完成图形用户界面导航任务,然而,现有的视觉语言模型在基本能力(OCR 和定位)和图形用户界面知识(图形用户界面元素的功能和控制方法)方面面临挑战,从而无法成为实用的图形用户界面代理人,为了解决这些挑战,我们提出了 GUICourse,一套用于从通用视觉语言模型中训练基于视觉的图形用户界面代理人的数据集,首先,我们引入了 GUIEnv 数据集来增强视觉语言模型的 OCR 和定位能力,然后,我们引入了 GUIAct 和 GUIChat 数据集来丰富其图形用户界面组件和交互的知识,实验证明,我们的图形用户界面代理人在常见的图形用户界面任务上比基准视觉语言模型具有更好的性能,即使是小型的图形用户界面代理人(具有 31 亿个参数),仍然能够在单步和多步图形用户界面任务上表现良好,最后,我们通过消融研究分析了训练阶段中这个代理人之间的不同变化,我们的源代码和数据集已在此 https URL 上发布。
Jun, 2024
介绍了从观察到的用户界面轨迹中抽取目标的任务,并提出了一种新的评估指标来评估特定用户界面环境下两个任务描述是否是释义关系。通过与用户界面自动化任务的逆关系,利用 Android-In-The-Wild 和 Mind2Web 数据集进行了实验,与人类和最先进的模型(GPT-4 和 Gemini-1.5 Pro)进行了比较,结果显示 Gemini 的表现优于 GPT 但仍不及人类,表明有很大的改进空间。
Jun, 2024
使用基于 GPT-4V 的 MM-Navigator 代理,通过先进的屏幕解析、动作推理和精确的动作定位能力,在智能手机图形用户界面(GUI)导航任务中实现了零射击导航,并在 iOS 和 Android 上展示了优异的性能。
Nov, 2023
本文提出了一种新的任务导向对话(TOD)体系结构:基于 GUI 的任务导向对话系统(GUI-TOD)。该系统可以直接在真实 APP 上执行 GUI 操作并执行任务,而不需要调用 TOD 特定的后端 API。此外,作者还发布了一个名为 META-GUI 的数据集,用于训练移动 GUI 上的多模式对话代理,并提出了多模式行为预测和响应模型,并在 META-GUI 上取得了良好的结果。
May, 2022
本论文提出了一种基于名为 UIClip 的视觉语言模型的 GUI 搜索引擎 GUing,其通过训练特定于应用 GUI 领域的大型数据集,在文本查询中实现了优于以前方法的文本到 GUI 的检索。
Apr, 2024
本研究介绍了 CogAgent,这是一个在 GUI 理解和导航方面专门使用的 180 亿参数的视觉语言模型,通过低分辨率和高分辨率图像编码器,支持 1120*1120 分辨率的输入,能够识别微小的页面元素和文本。CogAgent 在五个文本丰富和四个通用的 VQA 基准测试中达到了最新的技术水平,在 PC 和 Android 的 GUI 导航任务中超过了 LLM 方法,从而推动了技术的发展。
Dec, 2023
DroidAgent 是一个用于自动化 GUI 测试的智能代理,它基于大规模语言模型和支持机制以实现对 Android 应用的语义驱动自动测试,在实验评估中展现了较高水平的自主性和与应用的深度交互,根据测试结果,DroidAgent 相较于现有的 GUI 测试技术具有更高的活动覆盖率。
Nov, 2023
通过介绍 GUIDE 数据集,本文旨在促进多模态大型语言模型 (MLLM) 在图形用户界面领域的研究和开发,特别是与自动化过程中的机器人的使用案例相关的任务。本数据集的多平台特性和多样化的网站覆盖范围使得探索自动化任务中的跨界面能力成为可能。我们相信我们的数据集将成为提升多平台 LLMs 在实际应用中能力、促进自动化和自然语言理解领域创新的宝贵资源。使用 GUIDE 数据集,我们构建了 V-Zen,这是第一个使用我们的内部自动化工具 AUTONODE 在多个网站上进行自动化的 RPA 模型。
Apr, 2024
使用大型语言模型的图形用户界面(GUI)自动化在处理复杂任务方面有很大潜力。本论文介绍了一个新的基准测试框架 AssistGUI,评估模型是否能够响应用户请求的任务,在 Windows 平台上操纵鼠标和键盘。实验结果显示,我们的 GUI Parser 和 Reasoning 机制在性能上优于现有方法,但在基准测试中,最佳模型的成功率仅为 46%。通过对当前方法的限制进行彻底分析,为未来在该领域取得突破奠定基础。
Dec, 2023