SeeClick: 利用 GUI 基础为高级视觉 GUI 代理准备
使用图形用户界面(Graphic User Interface)进行人机交互是访问各种数字工具的基本要素,在最近的视觉语言模型(Vision Language Models,VLMs)的发展中,发现了其潜力,可以开发多功能代理人来帮助人类完成图形用户界面导航任务,然而,现有的视觉语言模型在基本能力(OCR 和定位)和图形用户界面知识(图形用户界面元素的功能和控制方法)方面面临挑战,从而无法成为实用的图形用户界面代理人,为了解决这些挑战,我们提出了 GUICourse,一套用于从通用视觉语言模型中训练基于视觉的图形用户界面代理人的数据集,首先,我们引入了 GUIEnv 数据集来增强视觉语言模型的 OCR 和定位能力,然后,我们引入了 GUIAct 和 GUIChat 数据集来丰富其图形用户界面组件和交互的知识,实验证明,我们的图形用户界面代理人在常见的图形用户界面任务上比基准视觉语言模型具有更好的性能,即使是小型的图形用户界面代理人(具有 31 亿个参数),仍然能够在单步和多步图形用户界面任务上表现良好,最后,我们通过消融研究分析了训练阶段中这个代理人之间的不同变化,我们的源代码和数据集已在此 https URL 上发布。
Jun, 2024
本论文提出了一种基于名为 UIClip 的视觉语言模型的 GUI 搜索引擎 GUing,其通过训练特定于应用 GUI 领域的大型数据集,在文本查询中实现了优于以前方法的文本到 GUI 的检索。
Apr, 2024
使用大型语言模型的图形用户界面(GUI)自动化在处理复杂任务方面有很大潜力。本论文介绍了一个新的基准测试框架 AssistGUI,评估模型是否能够响应用户请求的任务,在 Windows 平台上操纵鼠标和键盘。实验结果显示,我们的 GUI Parser 和 Reasoning 机制在性能上优于现有方法,但在基准测试中,最佳模型的成功率仅为 46%。通过对当前方法的限制进行彻底分析,为未来在该领域取得突破奠定基础。
Dec, 2023
本文对 GUI 与自然语言描述软件之间的联系进行了综合实证研究,收集、分析和开源了一个由人类标注者提供的大规模功能 GUI 描述数据集,并探究了四种神经图像字幕模型的表征潜力,以预测不同粒度的自然语言描述,并通过大规模用户研究定量和定性评估了这些模型,最后提出多模态模型的潜力以增强未来的自动化软件文档技术。
Jan, 2023
建立了一个多模态模型用于将自然语言指令与给定的 UI 屏幕截图联系起来,作为通用的 UI 任务自动执行器,并通过强化学习算法对其进行加强,实验结果表明,该模型在 UI 任务自动化方面表现优异,显示出作为通用 UI 任务自动化 API 的潜力。
Oct, 2023
通过视频 GUI 评估可视化导向的图形用户界面 (GUI) 任务上 GUI 助手的表现,并发现当前最先进的大型多模态模型 GPT4o 在高级规划方面表现不佳。
Jun, 2024
本研究介绍了 CogAgent,这是一个在 GUI 理解和导航方面专门使用的 180 亿参数的视觉语言模型,通过低分辨率和高分辨率图像编码器,支持 1120*1120 分辨率的输入,能够识别微小的页面元素和文本。CogAgent 在五个文本丰富和四个通用的 VQA 基准测试中达到了最新的技术水平,在 PC 和 Android 的 GUI 导航任务中超过了 LLM 方法,从而推动了技术的发展。
Dec, 2023
现代的图形用户界面(GUI)展示着不同的文本、图形和交互元素的排列,但 GUI 的表达方式却没有跟上。为了更高效地利用机器学习在 GUI 中的潜力,Graph4GUI 利用图神经网络捕捉了各个元素的属性以及它们之间的语义 - 视觉 - 空间约束关系。通过多项任务的效果验证,学习到的表示尤其在具有挑战性的 GUI 自动补全任务中表现出了其有效性,该任务涉及在部分完成的 GUI 中预测剩余未放置元素的位置。与基准方法相比,新模型的建议显示出更好的对齐和视觉吸引力,并且在主观评分上获得了更高的偏好度。此外,我们还展示了设计师在使用我们的模型作为自动补全插件时所感知到的实际效益和效率优势。
Apr, 2024
通过使用 Tree-of-Lens(ToL)代理,该研究提出了一种新的构建方法来解决 Screen Point-and-Read(SPR)任务,该代理不仅理解指示区域的内容,还能表达布局和元素之间的空间关系,这对于准确解释屏幕上的信息至关重要,这使得它与其他屏幕阅读工具有所区别。研究还在新提出的 SPR 基准上对 ToL 代理进行了全面评估,并在移动 GUI 导航任务中对 ToL 代理进行了测试,展示了其在识别代理执行轨迹路径上的错误操作方面的效用。
Jun, 2024
提出了一种新的预训练范式 —— 基于网络截图的强监督预训练(S4),利用大规模网络截图渲染的数据进行视觉语言模型的预训练。通过使用网络截图,可以获取在图像 - 文本对中不存在的丰富的视觉和文本线索。在 S4 中,利用 HTML 元素的树状层次结构和空间定位,精心设计了 10 个具有大规模注释数据的预训练任务。这些任务类似于不同领域的下游任务,而且注释成本较低。实验证明,与当前的截图预训练目标相比,我们的创新预训练方法显著提高了图像 - 文本模型在九个多样化和热门的下游任务上的性能 —— 在表格检测上提高了 76.1%,在小部件字幕上提高了至少 1%。
Mar, 2024