图形用户界面操作叙述器：行为发生的地点和时间是什么？

Jun, 2024

图形用户界面操作叙述器：行为发生的地点和时间是什么？

GUI Action Narrator: Where and When Did That Action Take Place?

Qinchen Wu, Difei Gao, Kevin Qinghong Lin, Zhuoyu Wu, Xiangwu Guo...

TL;DR通过引入语言与视觉多模态学习模型，研究提高图像 OCR 识别能力并实现 GUI 自动化，开发了适用于 GUI 动作的视频字幕基准以及利用光标作为视觉提示的 GUI 视频字幕框架，提升了高分辨率截图的解释性。实验结果表明，即使对于如 GPT-4o 等最先进的多模态模型，该任务仍具有很高的挑战性，并且我们的策略可以有效增强模型性能。

Abstract

The advent of multimodal llms has significantly enhanced image OCR recognition capabilities, making gui automation a viable reality for increasing efficiency in digital tasks. One fundamental aspect of developing

multimodal llms gui automation video captioning benchmark gui action dataset gui narrator

发现论文，激发创造

ASSISTGUI：面向任务的桌面图形用户界面自动化

使用大型语言模型的图形用户界面（GUI）自动化在处理复杂任务方面有很大潜力。本论文介绍了一个新的基准测试框架 AssistGUI，评估模型是否能够响应用户请求的任务，在 Windows 平台上操纵鼠标和键盘。实验结果显示，我们的 GUI Parser 和 Reasoning 机制在性能上优于现有方法，但在基准测试中，最佳模型的成功率仅为 46％。通过对当前方法的限制进行彻底分析，为未来在该领域取得突破奠定基础。

Dec, 2023

使用图像字幕生成技术进行自动化软件文档编写的实证研究

本文对 GUI 与自然语言描述软件之间的联系进行了综合实证研究，收集、分析和开源了一个由人类标注者提供的大规模功能 GUI 描述数据集，并探究了四种神经图像字幕模型的表征潜力，以预测不同粒度的自然语言描述，并通过大规模用户研究定量和定性评估了这些模型，最后提出多模态模型的潜力以增强未来的自动化软件文档技术。

Jan, 2023

VideoGUI: 从教学视频中的 GUI 自动化基准

通过视频 GUI 评估可视化导向的图形用户界面 (GUI) 任务上 GUI 助手的表现，并发现当前最先进的大型多模态模型 GPT4o 在高级规划方面表现不佳。

Jun, 2024

GUI-WORLD: GUI 导向的多模态基于 LLM 的 Agent 数据集

该研究论文介绍了一个新的数据集，名为 GUI-World，包含六种 GUI 场景和八种 GUI 问题类型的人工 - MLLM 注释，评估了当前最先进的 MLLMs（包括 ImageLLMs 和 VideoLLMs）在理解各种 GUI 内容方面的能力，发现 ImageLLMs 在没有手动注释的关键帧或操作历史的情况下难以处理动态 GUI 内容，而 VideoLLMs 在 GUI 视频数据集稀缺的情况下在所有 GUI 任务中表现不佳。然而，作者通过利用 Fine-tuned VideoLLM 作为 GUI agent 迈出了一步，展示了对各种 GUI 任务的改进理解，但由于基础 LLMs 的性能限制，使用 VideoLLMs 作为 GUI agent 仍然是一个重大挑战，研究为未来动态 GUI 内容理解的研究提供了有价值的见解。

Jun, 2024

GUI 课程：从通用视觉语言模型到多功能 GUI 代理

使用图形用户界面（Graphic User Interface）进行人机交互是访问各种数字工具的基本要素，在最近的视觉语言模型（Vision Language Models，VLMs）的发展中，发现了其潜力，可以开发多功能代理人来帮助人类完成图形用户界面导航任务，然而，现有的视觉语言模型在基本能力（OCR 和定位）和图形用户界面知识（图形用户界面元素的功能和控制方法）方面面临挑战，从而无法成为实用的图形用户界面代理人，为了解决这些挑战，我们提出了 GUICourse，一套用于从通用视觉语言模型中训练基于视觉的图形用户界面代理人的数据集，首先，我们引入了 GUIEnv 数据集来增强视觉语言模型的 OCR 和定位能力，然后，我们引入了 GUIAct 和 GUIChat 数据集来丰富其图形用户界面组件和交互的知识，实验证明，我们的图形用户界面代理人在常见的图形用户界面任务上比基准视觉语言模型具有更好的性能，即使是小型的图形用户界面代理人（具有 31 亿个参数），仍然能够在单步和多步图形用户界面任务上表现良好，最后，我们通过消融研究分析了训练阶段中这个代理人之间的不同变化，我们的源代码和数据集已在此 https URL 上发布。

Jun, 2024

你只看屏幕：多模态行动训练智能体

自主用户界面 (UI) 代理旨在通过与用户界面的自动交互来促进任务自动化。为了对齐于大型语言模型 (LLMs) 的输入 - 输出需求，现有方法在沙盒环境下开发，依赖外部工具和应用特定的 API 将环境解析为文本元素并解释预测的动作。为了减轻这些挑战，我们引入了 Auto-UI，这是一个多模态的解决方案，直接与界面交互，无需环境解析或依赖应用程序相关的 API。此外，我们提出了一种链式动作技术 —— 利用一系列中间的先前动作历史和未来动作计划 —— 以帮助代理决定执行什么动作。我们在一个新的设备控制基准 AITW 上评估了我们的方法，该基准包含 30K 个独特的指令，涵盖应用操作、网络搜索和网购等多步任务。实验结果显示，Auto-UI 实现了 90% 的动作类型预测准确率和 74% 的整体动作成功率。

Sep, 2023

增强型用户界面指令基础：走向通用的用户界面任务自动化 API

建立了一个多模态模型用于将自然语言指令与给定的 UI 屏幕截图联系起来，作为通用的 UI 任务自动执行器，并通过强化学习算法对其进行加强，实验结果表明，该模型在 UI 任务自动化方面表现优异，显示出作为通用 UI 任务自动化 API 的潜力。

Oct, 2023

由音频叙述引导的弱监督行为检测

提出了一种基于多模态学习和叙述监督的视频检测模型，可以从嘈杂的音频叙述中学习动作检测，从而降低标注的费用。

May, 2022

智能手机图形用户界面自动化的综合认知 LLM 代理

我们提出了一种全面认知的大型语言模型代理，CoCo-Agent，通过全面环境感知和条件化行动预测的两种新方法系统地提高了图形用户界面自动化性能。我们的代理在 AITW 和 META-GUI 基准测试中取得了最新的最佳表现，展示了在现实场景中的巨大潜力。

Feb, 2024

指南：执行的图形用户界面数据

通过介绍 GUIDE 数据集，本文旨在促进多模态大型语言模型 (MLLM) 在图形用户界面领域的研究和开发，特别是与自动化过程中的机器人的使用案例相关的任务。本数据集的多平台特性和多样化的网站覆盖范围使得探索自动化任务中的跨界面能力成为可能。我们相信我们的数据集将成为提升多平台 LLMs 在实际应用中能力、促进自动化和自然语言理解领域创新的宝贵资源。使用 GUIDE 数据集，我们构建了 V-Zen，这是第一个使用我们的内部自动化工具 AUTONODE 在多个网站上进行自动化的 RPA 模型。

Apr, 2024