GUI-WORLD: GUI 导向的多模态基于 LLM 的 Agent 数据集

Jun, 2024

GUI-WORLD: GUI 导向的多模态基于 LLM 的 Agent 数据集

GUI-WORLD: A Dataset for GUI-oriented Multimodal LLM-based Agents

Dongping Chen, Yue Huang, Siyuan Wu, Jingyu Tang, Liuyi Chen...

TL;DR该研究论文介绍了一个新的数据集，名为 GUI-World，包含六种 GUI 场景和八种 GUI 问题类型的人工 - MLLM 注释，评估了当前最先进的 MLLMs（包括 ImageLLMs 和 VideoLLMs）在理解各种 GUI 内容方面的能力，发现 ImageLLMs 在没有手动注释的关键帧或操作历史的情况下难以处理动态 GUI 内容，而 VideoLLMs 在 GUI 视频数据集稀缺的情况下在所有 GUI 任务中表现不佳。然而，作者通过利用 Fine-tuned VideoLLM 作为 GUI agent 迈出了一步，展示了对各种 GUI 任务的改进理解，但由于基础 LLMs 的性能限制，使用 VideoLLMs 作为 GUI agent 仍然是一个重大挑战，研究为未来动态 GUI 内容理解的研究提供了有价值的见解。

Abstract

Recently, multimodal large language models (MLLMs) have been used as agents to control keyboard and mouse inputs by directly perceiving the Graphical User Interface (GUI) and generating corresponding code. However, current agents primarily exhibit excellent understanding capabilities i

multimodal large language models gui agent dynamic gui content videollms gui-world dataset

发现论文，激发创造

GUI 课程：从通用视觉语言模型到多功能 GUI 代理

使用图形用户界面（Graphic User Interface）进行人机交互是访问各种数字工具的基本要素，在最近的视觉语言模型（Vision Language Models，VLMs）的发展中，发现了其潜力，可以开发多功能代理人来帮助人类完成图形用户界面导航任务，然而，现有的视觉语言模型在基本能力（OCR 和定位）和图形用户界面知识（图形用户界面元素的功能和控制方法）方面面临挑战，从而无法成为实用的图形用户界面代理人，为了解决这些挑战，我们提出了 GUICourse，一套用于从通用视觉语言模型中训练基于视觉的图形用户界面代理人的数据集，首先，我们引入了 GUIEnv 数据集来增强视觉语言模型的 OCR 和定位能力，然后，我们引入了 GUIAct 和 GUIChat 数据集来丰富其图形用户界面组件和交互的知识，实验证明，我们的图形用户界面代理人在常见的图形用户界面任务上比基准视觉语言模型具有更好的性能，即使是小型的图形用户界面代理人（具有 31 亿个参数），仍然能够在单步和多步图形用户界面任务上表现良好，最后，我们通过消融研究分析了训练阶段中这个代理人之间的不同变化，我们的源代码和数据集已在此 https URL 上发布。

Jun, 2024

V-Zen：高效 GUI 理解与准确引用的新型多模态 LLM

V-Zen 是一款创新的多模态大语言模型，通过双分辨率图像编码器在 GUI 理解和下一步行动预测方面取得了突破性的成果，并与 GUIDE 数据集成功集成，标志着多模态人工智能研究的新时代的来临。

May, 2024

CogAgent：GUI 代理的视觉语言模型

本研究介绍了 CogAgent，这是一个在 GUI 理解和导航方面专门使用的 180 亿参数的视觉语言模型，通过低分辨率和高分辨率图像编码器，支持 1120*1120 分辨率的输入，能够识别微小的页面元素和文本。CogAgent 在五个文本丰富和四个通用的 VQA 基准测试中达到了最新的技术水平，在 PC 和 Android 的 GUI 导航任务中超过了 LLM 方法，从而推动了技术的发展。

Dec, 2023

图形用户界面操作叙述器：行为发生的地点和时间是什么？

通过引入语言与视觉多模态学习模型，研究提高图像 OCR 识别能力并实现 GUI 自动化，开发了适用于 GUI 动作的视频字幕基准以及利用光标作为视觉提示的 GUI 视频字幕框架，提升了高分辨率截图的解释性。实验结果表明，即使对于如 GPT-4o 等最先进的多模态模型，该任务仍具有很高的挑战性，并且我们的策略可以有效增强模型性能。

Jun, 2024

ASSISTGUI：面向任务的桌面图形用户界面自动化

使用大型语言模型的图形用户界面（GUI）自动化在处理复杂任务方面有很大潜力。本论文介绍了一个新的基准测试框架 AssistGUI，评估模型是否能够响应用户请求的任务，在 Windows 平台上操纵鼠标和键盘。实验结果显示，我们的 GUI Parser 和 Reasoning 机制在性能上优于现有方法，但在基准测试中，最佳模型的成功率仅为 46％。通过对当前方法的限制进行彻底分析，为未来在该领域取得突破奠定基础。

Dec, 2023

指南：执行的图形用户界面数据

通过介绍 GUIDE 数据集，本文旨在促进多模态大型语言模型 (MLLM) 在图形用户界面领域的研究和开发，特别是与自动化过程中的机器人的使用案例相关的任务。本数据集的多平台特性和多样化的网站覆盖范围使得探索自动化任务中的跨界面能力成为可能。我们相信我们的数据集将成为提升多平台 LLMs 在实际应用中能力、促进自动化和自然语言理解领域创新的宝贵资源。使用 GUIDE 数据集，我们构建了 V-Zen，这是第一个使用我们的内部自动化工具 AUTONODE 在多个网站上进行自动化的 RPA 模型。

Apr, 2024

WorldGPT: 以语言模型为基础的多模态世界模型

构建于多模式大型语言模型（MLLM）之上的通用世界模型 WorldGPT，通过分析各领域的数百万个视频，使其理解世界动态。为了进一步增强 WorldGPT 在专门场景和长期任务中的能力，我们还将其与一种结合了内存卸载、知识检索和上下文反思的新型认知架构进行了集成。通过在涵盖各种现实情境的多模式状态转换预测基准 WorldNet 上进行评估，直接展示了 WorldGPT 准确建模状态转换模式的能力，确认其在理解和预测复杂情境动态方面的有效性。我们进一步探索了 WorldGPT 作为世界模拟器的潜力，通过高效合成多模式指令实例，帮助多模式代理在不熟悉的领域进行泛化，被证明与真实数据一样可靠用于微调目的。项目可在 https://github.com/DCDmllm/WorldGPT 找到。

Apr, 2024

MMWorld: 视频中多学科多方面世界模型评估之路

多模态语言模型 (MLLMs) 在解释和推理复杂的现实世界动态方面展示出新兴的 “世界模型” 的能力。为了评估这些能力，我们提出视频是理想的媒介，因为它们包含了丰富的现实世界动态和因果关系的表示。为此，我们引入了 MMWorld，一个新的多学科、多方面的多模态视频理解基准。MMWorld 通过两个独特的优势与以前的视频理解基准有所区别：（1）多学科，涵盖各种通常需要领域专业知识才能全面理解的学科；（2）多方面的推理，包括解释、反事实思考、未来预测等。MMWorld 包括一个人工标注的数据集，用于评估 MLLMs 对整个视频的问题，并包括一个用于分析 MLLMs 的单一感知模态的合成数据集。总计 MMWorld 涵盖了 7 个广泛的学科和 69 个子学科的 1,910 个视频，并配有 6,627 个问题 - 答案对和相关字幕。评估包括 2 个专有和 10 个开源的 MLLMs，在 MMWorld 上表现不佳（例如，GPT-4V 的准确率仅为 52.3%），显示了改进的空间。进一步的消融研究揭示了模型与人类不同的技能组合。我们希望 MMWorld 能成为在视频中评估世界模型的关键一步。

Jun, 2024

ScreenAgent：基于视觉语言模型的计算机控制代理

本文构建了一个用于视觉语言模型（VLM）代理与真实计算机屏幕交互的环境，在该环境中，代理可以观察屏幕截图并通过输出鼠标和键盘动作操纵图形用户界面（GUI）。我们还设计了一个自动控制流程，包括规划、执行和反思阶段，指导代理不断与环境交互并完成多步骤任务。此外，我们构建了 ScreenAgent 数据集，收集完成多种日常计算机任务时的屏幕截图和动作序列。最后，我们训练了一个名为 ScreenAgent 的模型，其实现了与 GPT-4V 相媲美的计算机控制能力，并展示了更精确的用户界面定位能力。这些尝试有望进一步激发构建通用性 LLM 代理的研究。源代码可在 https://github.com/niuzaisheng/ScreenAgent 获取。

Feb, 2024

WorldQA：通过长链推理在视频中实现多模态世界知识

多模态信息和知识对我们理解复杂动态的世界至关重要。本文介绍了一个名为 WorldQA 的视频理解数据集，旨在推动多模态世界模型的发展，并通过引入多种观点挑战模型的能力。通过 WorldRetriever，介绍了一种将专家知识综合整理为连贯推理链条的方法，以便准确回答 WorldQA 的问题。研究还发现了多个关键见解，其中包括模型的推理和理解能力的进一步发展的必要性。希望 WorldQA、方法学以及这些见解可以为多模态世界模型的未来发展做出贡献。

May, 2024