VideoGUI: 从教学视频中的 GUI 自动化基准

Jun, 2024

VideoGUI: 从教学视频中的 GUI 自动化基准

VideoGUI: A Benchmark for GUI Automation from Instructional Videos

Kevin Qinghong Lin, Linjie Li, Difei Gao, Qinchen WU, Mingyi Yan...

TL;DR通过视频 GUI 评估可视化导向的图形用户界面 (GUI) 任务上 GUI 助手的表现，并发现当前最先进的大型多模态模型 GPT4o 在高级规划方面表现不佳。

Abstract

Graphical User Interface (GUI) automation holds significant promise for enhancing human productivity by assisting with computer tasks. Existing task formulations primarily focus on simple tasks that can be specified by a single, language-only instruction, such as "Insert a new slide." In this work, we introduce →

graphical user interface automation videogui multi-modal benchmark gui assistants visual-centric gui tasks

发现论文，激发创造

ASSISTGUI：面向任务的桌面图形用户界面自动化

使用大型语言模型的图形用户界面（GUI）自动化在处理复杂任务方面有很大潜力。本论文介绍了一个新的基准测试框架 AssistGUI，评估模型是否能够响应用户请求的任务，在 Windows 平台上操纵鼠标和键盘。实验结果显示，我们的 GUI Parser 和 Reasoning 机制在性能上优于现有方法，但在基准测试中，最佳模型的成功率仅为 46％。通过对当前方法的限制进行彻底分析，为未来在该领域取得突破奠定基础。

Dec, 2023

图形用户界面操作叙述器：行为发生的地点和时间是什么？

通过引入语言与视觉多模态学习模型，研究提高图像 OCR 识别能力并实现 GUI 自动化，开发了适用于 GUI 动作的视频字幕基准以及利用光标作为视觉提示的 GUI 视频字幕框架，提升了高分辨率截图的解释性。实验结果表明，即使对于如 GPT-4o 等最先进的多模态模型，该任务仍具有很高的挑战性，并且我们的策略可以有效增强模型性能。

Jun, 2024

GUI 课程：从通用视觉语言模型到多功能 GUI 代理

使用图形用户界面（Graphic User Interface）进行人机交互是访问各种数字工具的基本要素，在最近的视觉语言模型（Vision Language Models，VLMs）的发展中，发现了其潜力，可以开发多功能代理人来帮助人类完成图形用户界面导航任务，然而，现有的视觉语言模型在基本能力（OCR 和定位）和图形用户界面知识（图形用户界面元素的功能和控制方法）方面面临挑战，从而无法成为实用的图形用户界面代理人，为了解决这些挑战，我们提出了 GUICourse，一套用于从通用视觉语言模型中训练基于视觉的图形用户界面代理人的数据集，首先，我们引入了 GUIEnv 数据集来增强视觉语言模型的 OCR 和定位能力，然后，我们引入了 GUIAct 和 GUIChat 数据集来丰富其图形用户界面组件和交互的知识，实验证明，我们的图形用户界面代理人在常见的图形用户界面任务上比基准视觉语言模型具有更好的性能，即使是小型的图形用户界面代理人（具有 31 亿个参数），仍然能够在单步和多步图形用户界面任务上表现良好，最后，我们通过消融研究分析了训练阶段中这个代理人之间的不同变化，我们的源代码和数据集已在此 https URL 上发布。

Jun, 2024

从用户界面轨迹识别用户目标

介绍了从观察到的用户界面轨迹中抽取目标的任务，并提出了一种新的评估指标来评估特定用户界面环境下两个任务描述是否是释义关系。通过与用户界面自动化任务的逆关系，利用 Android-In-The-Wild 和 Mind2Web 数据集进行了实验，与人类和最先进的模型（GPT-4 和 Gemini-1.5 Pro）进行了比较，结果显示 Gemini 的表现优于 GPT 但仍不及人类，表明有很大的改进空间。

Jun, 2024

GUing: 使用视觉语言模型的移动 GUI 搜索引擎

本论文提出了一种基于名为 UIClip 的视觉语言模型的 GUI 搜索引擎 GUing，其通过训练特定于应用 GUI 领域的大型数据集，在文本查询中实现了优于以前方法的文本到 GUI 的检索。

Apr, 2024

GUI-WORLD: GUI 导向的多模态基于 LLM 的 Agent 数据集

该研究论文介绍了一个新的数据集，名为 GUI-World，包含六种 GUI 场景和八种 GUI 问题类型的人工 - MLLM 注释，评估了当前最先进的 MLLMs（包括 ImageLLMs 和 VideoLLMs）在理解各种 GUI 内容方面的能力，发现 ImageLLMs 在没有手动注释的关键帧或操作历史的情况下难以处理动态 GUI 内容，而 VideoLLMs 在 GUI 视频数据集稀缺的情况下在所有 GUI 任务中表现不佳。然而，作者通过利用 Fine-tuned VideoLLM 作为 GUI agent 迈出了一步，展示了对各种 GUI 任务的改进理解，但由于基础 LLMs 的性能限制，使用 VideoLLMs 作为 GUI agent 仍然是一个重大挑战，研究为未来动态 GUI 内容理解的研究提供了有价值的见解。

Jun, 2024

使用图像字幕生成技术进行自动化软件文档编写的实证研究

本文对 GUI 与自然语言描述软件之间的联系进行了综合实证研究，收集、分析和开源了一个由人类标注者提供的大规模功能 GUI 描述数据集，并探究了四种神经图像字幕模型的表征潜力，以预测不同粒度的自然语言描述，并通过大规模用户研究定量和定性评估了这些模型，最后提出多模态模型的潜力以增强未来的自动化软件文档技术。

Jan, 2023

VGA: 视觉 GUI 助手 -- 通过图像中心的微调减少幻觉

我们提出了一种名为 VGA 的细调模型，旨在提升对图形用户界面（GUI）的理解能力，减少幻觉和错误响应。我们构建了一个 63.8k 高质量示例的 Vision Question Answering（VQA）数据集，并设计了一种名为 Foundation and Advanced Comprehension（FAC）的两阶段细调方法来增强对图像内容的信息提取能力和与人类意图的对齐。实验证明我们的方法提高了从图像中提取信息的能力，并在 GUI 理解任务中取得了最新的成果。我们的数据集和细调脚本将很快发布。

Jun, 2024

SeeClick: 利用 GUI 基础为高级视觉 GUI 代理准备

通过仅依赖屏幕截图进行任务自动化，我们提出了一个视觉图形用户界面代理 - SeeClick，以解决开发图形用户界面代理的一个关键挑战：准确定位基于指令的屏幕元素。通过 GUI 定位的优化，我们观察到在各种基线测试中，SeeClick 在 ScreenSpot 上取得了显著提升，并且对三个广泛使用的基准测试进行的综合评估一致支持我们的发现：GUI 定位的进展与下游 GUI 代理任务的性能提升直接相关。

Jan, 2024

Graph4GUI：用于表示图形用户界面的图神经网络

现代的图形用户界面（GUI）展示着不同的文本、图形和交互元素的排列，但 GUI 的表达方式却没有跟上。为了更高效地利用机器学习在 GUI 中的潜力，Graph4GUI 利用图神经网络捕捉了各个元素的属性以及它们之间的语义 - 视觉 - 空间约束关系。通过多项任务的效果验证，学习到的表示尤其在具有挑战性的 GUI 自动补全任务中表现出了其有效性，该任务涉及在部分完成的 GUI 中预测剩余未放置元素的位置。与基准方法相比，新模型的建议显示出更好的对齐和视觉吸引力，并且在主观评分上获得了更高的偏好度。此外，我们还展示了设计师在使用我们的模型作为自动补全插件时所感知到的实际效益和效率优势。

Apr, 2024