GUI 课程：从通用视觉语言模型到多功能 GUI 代理

Jun, 2024

GUI 课程：从通用视觉语言模型到多功能 GUI 代理

GUICourse: From General Vision Language Models to Versatile GUI Agents

Wentong Chen, Junbo Cui, Jinyi Hu, Yujia Qin, Junjie Fang...

TL;DR使用图形用户界面（Graphic User Interface）进行人机交互是访问各种数字工具的基本要素，在最近的视觉语言模型（Vision Language Models，VLMs）的发展中，发现了其潜力，可以开发多功能代理人来帮助人类完成图形用户界面导航任务，然而，现有的视觉语言模型在基本能力（OCR 和定位）和图形用户界面知识（图形用户界面元素的功能和控制方法）方面面临挑战，从而无法成为实用的图形用户界面代理人，为了解决这些挑战，我们提出了 GUICourse，一套用于从通用视觉语言模型中训练基于视觉的图形用户界面代理人的数据集，首先，我们引入了 GUIEnv 数据集来增强视觉语言模型的 OCR 和定位能力，然后，我们引入了 GUIAct 和 GUIChat 数据集来丰富其图形用户界面组件和交互的知识，实验证明，我们的图形用户界面代理人在常见的图形用户界面任务上比基准视觉语言模型具有更好的性能，即使是小型的图形用户界面代理人（具有 31 亿个参数），仍然能够在单步和多步图形用户界面任务上表现良好，最后，我们通过消融研究分析了训练阶段中这个代理人之间的不同变化，我们的源代码和数据集已在此 https URL 上发布。

Abstract

Utilizing graphic user interface (GUI) for human-computer interaction is essential for accessing a wide range of digital tools. Recent advancements in vision language models (VLMs) highlight the compelling potent

graphic user interface vision language models gui navigation tasks ocr and grounding gui agents

发现论文，激发创造

CogAgent：GUI 代理的视觉语言模型

本研究介绍了 CogAgent，这是一个在 GUI 理解和导航方面专门使用的 180 亿参数的视觉语言模型，通过低分辨率和高分辨率图像编码器，支持 1120*1120 分辨率的输入，能够识别微小的页面元素和文本。CogAgent 在五个文本丰富和四个通用的 VQA 基准测试中达到了最新的技术水平，在 PC 和 Android 的 GUI 导航任务中超过了 LLM 方法，从而推动了技术的发展。

Dec, 2023

GUI-WORLD: GUI 导向的多模态基于 LLM 的 Agent 数据集

该研究论文介绍了一个新的数据集，名为 GUI-World，包含六种 GUI 场景和八种 GUI 问题类型的人工 - MLLM 注释，评估了当前最先进的 MLLMs（包括 ImageLLMs 和 VideoLLMs）在理解各种 GUI 内容方面的能力，发现 ImageLLMs 在没有手动注释的关键帧或操作历史的情况下难以处理动态 GUI 内容，而 VideoLLMs 在 GUI 视频数据集稀缺的情况下在所有 GUI 任务中表现不佳。然而，作者通过利用 Fine-tuned VideoLLM 作为 GUI agent 迈出了一步，展示了对各种 GUI 任务的改进理解，但由于基础 LLMs 的性能限制，使用 VideoLLMs 作为 GUI agent 仍然是一个重大挑战，研究为未来动态 GUI 内容理解的研究提供了有价值的见解。

Jun, 2024

ScreenAgent：基于视觉语言模型的计算机控制代理

本文构建了一个用于视觉语言模型（VLM）代理与真实计算机屏幕交互的环境，在该环境中，代理可以观察屏幕截图并通过输出鼠标和键盘动作操纵图形用户界面（GUI）。我们还设计了一个自动控制流程，包括规划、执行和反思阶段，指导代理不断与环境交互并完成多步骤任务。此外，我们构建了 ScreenAgent 数据集，收集完成多种日常计算机任务时的屏幕截图和动作序列。最后，我们训练了一个名为 ScreenAgent 的模型，其实现了与 GPT-4V 相媲美的计算机控制能力，并展示了更精确的用户界面定位能力。这些尝试有望进一步激发构建通用性 LLM 代理的研究。源代码可在 https://github.com/niuzaisheng/ScreenAgent 获取。

Feb, 2024

ASSISTGUI：面向任务的桌面图形用户界面自动化

使用大型语言模型的图形用户界面（GUI）自动化在处理复杂任务方面有很大潜力。本论文介绍了一个新的基准测试框架 AssistGUI，评估模型是否能够响应用户请求的任务，在 Windows 平台上操纵鼠标和键盘。实验结果显示，我们的 GUI Parser 和 Reasoning 机制在性能上优于现有方法，但在基准测试中，最佳模型的成功率仅为 46％。通过对当前方法的限制进行彻底分析，为未来在该领域取得突破奠定基础。

Dec, 2023

V-Zen：高效 GUI 理解与准确引用的新型多模态 LLM

V-Zen 是一款创新的多模态大语言模型，通过双分辨率图像编码器在 GUI 理解和下一步行动预测方面取得了突破性的成果，并与 GUIDE 数据集成功集成，标志着多模态人工智能研究的新时代的来临。

May, 2024

SeeClick: 利用 GUI 基础为高级视觉 GUI 代理准备

通过仅依赖屏幕截图进行任务自动化，我们提出了一个视觉图形用户界面代理 - SeeClick，以解决开发图形用户界面代理的一个关键挑战：准确定位基于指令的屏幕元素。通过 GUI 定位的优化，我们观察到在各种基线测试中，SeeClick 在 ScreenSpot 上取得了显著提升，并且对三个广泛使用的基准测试进行的综合评估一致支持我们的发现：GUI 定位的进展与下游 GUI 代理任务的性能提升直接相关。

Jan, 2024

VGA: 视觉 GUI 助手 -- 通过图像中心的微调减少幻觉

我们提出了一种名为 VGA 的细调模型，旨在提升对图形用户界面（GUI）的理解能力，减少幻觉和错误响应。我们构建了一个 63.8k 高质量示例的 Vision Question Answering（VQA）数据集，并设计了一种名为 Foundation and Advanced Comprehension（FAC）的两阶段细调方法来增强对图像内容的信息提取能力和与人类意图的对齐。实验证明我们的方法提高了从图像中提取信息的能力，并在 GUI 理解任务中取得了最新的成果。我们的数据集和细调脚本将很快发布。

Jun, 2024

图形用户界面操作叙述器：行为发生的地点和时间是什么？

通过引入语言与视觉多模态学习模型，研究提高图像 OCR 识别能力并实现 GUI 自动化，开发了适用于 GUI 动作的视频字幕基准以及利用光标作为视觉提示的 GUI 视频字幕框架，提升了高分辨率截图的解释性。实验结果表明，即使对于如 GPT-4o 等最先进的多模态模型，该任务仍具有很高的挑战性，并且我们的策略可以有效增强模型性能。

Jun, 2024

GUing: 使用视觉语言模型的移动 GUI 搜索引擎

本论文提出了一种基于名为 UIClip 的视觉语言模型的 GUI 搜索引擎 GUing，其通过训练特定于应用 GUI 领域的大型数据集，在文本查询中实现了优于以前方法的文本到 GUI 的检索。

Apr, 2024

ILuvUI：从机器对话中调整的语言 - 视觉用户界面建模

使用生成配对文本 - 图像训练数据的方法，无需人工提供注释，适用于任何 UI 截图数据集，通过将现有的基于像素的方法与大型语言模型（LLM）相结合，对 UI 领域的 VLM 进行自动微调，以实现对 UI 任务的会话式 VLM 模型的性能评估、Q&A、UI 描述、规划以及多步 UI 导航和规划等方面的展示。

Oct, 2023