V-Zen：高效 GUI 理解与准确引用的新型多模态 LLM

May, 2024

V-Zen：高效 GUI 理解与准确引用的新型多模态 LLM

V-Zen: Efficient GUI Understanding and Precise Grounding With A Novel Multimodal LLM

Abdur Rahman, Rajat Chawla, Muskaan Kumar, Arkajit Datta, Adarsh Jha...

TL;DRV-Zen 是一款创新的多模态大语言模型，通过双分辨率图像编码器在 GUI 理解和下一步行动预测方面取得了突破性的成果，并与 GUIDE 数据集成功集成，标志着多模态人工智能研究的新时代的来临。

Abstract

In the rapidly evolving landscape of AI research and application, Multimodal Large Language Models (MLLMs) have emerged as a transformative force, adept at interpreting and integrating information from diverse modalities such as text, images, and Graphical User Interfaces (GUIs). Despite these advancements, the nuanced interaction and understanding of GUIs p

multimodal large language models gui understanding dual-resolution image encoders fine-tuning multimodal ai research

发现论文，激发创造

GUI 课程：从通用视觉语言模型到多功能 GUI 代理

使用图形用户界面（Graphic User Interface）进行人机交互是访问各种数字工具的基本要素，在最近的视觉语言模型（Vision Language Models，VLMs）的发展中，发现了其潜力，可以开发多功能代理人来帮助人类完成图形用户界面导航任务，然而，现有的视觉语言模型在基本能力（OCR 和定位）和图形用户界面知识（图形用户界面元素的功能和控制方法）方面面临挑战，从而无法成为实用的图形用户界面代理人，为了解决这些挑战，我们提出了 GUICourse，一套用于从通用视觉语言模型中训练基于视觉的图形用户界面代理人的数据集，首先，我们引入了 GUIEnv 数据集来增强视觉语言模型的 OCR 和定位能力，然后，我们引入了 GUIAct 和 GUIChat 数据集来丰富其图形用户界面组件和交互的知识，实验证明，我们的图形用户界面代理人在常见的图形用户界面任务上比基准视觉语言模型具有更好的性能，即使是小型的图形用户界面代理人（具有 31 亿个参数），仍然能够在单步和多步图形用户界面任务上表现良好，最后，我们通过消融研究分析了训练阶段中这个代理人之间的不同变化，我们的源代码和数据集已在此 https URL 上发布。

Jun, 2024

GUI-WORLD: GUI 导向的多模态基于 LLM 的 Agent 数据集

该研究论文介绍了一个新的数据集，名为 GUI-World，包含六种 GUI 场景和八种 GUI 问题类型的人工 - MLLM 注释，评估了当前最先进的 MLLMs（包括 ImageLLMs 和 VideoLLMs）在理解各种 GUI 内容方面的能力，发现 ImageLLMs 在没有手动注释的关键帧或操作历史的情况下难以处理动态 GUI 内容，而 VideoLLMs 在 GUI 视频数据集稀缺的情况下在所有 GUI 任务中表现不佳。然而，作者通过利用 Fine-tuned VideoLLM 作为 GUI agent 迈出了一步，展示了对各种 GUI 任务的改进理解，但由于基础 LLMs 的性能限制，使用 VideoLLMs 作为 GUI agent 仍然是一个重大挑战，研究为未来动态 GUI 内容理解的研究提供了有价值的见解。

Jun, 2024

增强型用户界面指令基础：走向通用的用户界面任务自动化 API

建立了一个多模态模型用于将自然语言指令与给定的 UI 屏幕截图联系起来，作为通用的 UI 任务自动执行器，并通过强化学习算法对其进行加强，实验结果表明，该模型在 UI 任务自动化方面表现优异，显示出作为通用 UI 任务自动化 API 的潜力。

Oct, 2023

Veagle: 多模态表征学习的进展

提出了一种名为 Veagle 的新方法，通过在现有模型中增强多模态能力，利用动态机制将编码的视觉信息直接投射到语言模型中，从而在视觉问题回答和图像理解等任务中表现出具有显著优势的 5-6% 的改进。

Jan, 2024

指南：执行的图形用户界面数据

通过介绍 GUIDE 数据集，本文旨在促进多模态大型语言模型 (MLLM) 在图形用户界面领域的研究和开发，特别是与自动化过程中的机器人的使用案例相关的任务。本数据集的多平台特性和多样化的网站覆盖范围使得探索自动化任务中的跨界面能力成为可能。我们相信我们的数据集将成为提升多平台 LLMs 在实际应用中能力、促进自动化和自然语言理解领域创新的宝贵资源。使用 GUIDE 数据集，我们构建了 V-Zen，这是第一个使用我们的内部自动化工具 AUTONODE 在多个网站上进行自动化的 RPA 模型。

Apr, 2024

GPT-4V 在仙境中：用于零封注册手机 GUI 导航的大型多模态模型

使用基于 GPT-4V 的 MM-Navigator 代理，通过先进的屏幕解析、动作推理和精确的动作定位能力，在智能手机图形用户界面（GUI）导航任务中实现了零射击导航，并在 iOS 和 Android 上展示了优异的性能。

Nov, 2023

CogAgent：GUI 代理的视觉语言模型

本研究介绍了 CogAgent，这是一个在 GUI 理解和导航方面专门使用的 180 亿参数的视觉语言模型，通过低分辨率和高分辨率图像编码器，支持 1120*1120 分辨率的输入，能够识别微小的页面元素和文本。CogAgent 在五个文本丰富和四个通用的 VQA 基准测试中达到了最新的技术水平，在 PC 和 Android 的 GUI 导航任务中超过了 LLM 方法，从而推动了技术的发展。

Dec, 2023

ILuvUI：从机器对话中调整的语言 - 视觉用户界面建模

使用生成配对文本 - 图像训练数据的方法，无需人工提供注释，适用于任何 UI 截图数据集，通过将现有的基于像素的方法与大型语言模型（LLM）相结合，对 UI 领域的 VLM 进行自动微调，以实现对 UI 任务的会话式 VLM 模型的性能评估、Q&A、UI 描述、规划以及多步 UI 导航和规划等方面的展示。

Oct, 2023

多模态大型语言模型的（R）演进：一项调查

连接文本和视觉模态在生成智能中起着关键作用。受大型语言模型成功的启发，目前正在大量研究开发多模态大型语言模型 (MLLMs)。本文全面回顾了最近的面向视觉的 MLLMs，分析了它们的体系结构选择、多模态对齐策略和训练技术。同时，还对这些模型在包括视觉定位、图像生成和编辑、视觉理解以及领域特定应用等一系列任务上进行了详细分析。此外，我们还编译和描述了训练数据集和评估基准，并在性能和计算要求方面对现有模型进行了比较。总体而言，本调查提供了当前最新技术的全面概述，为未来的 MLLMs 奠定了基础。

Feb, 2024

LMMs 初探：与 GPT-4V (ision) 的初步探索

通过分析最新的模型 GPT-4V，我们深入了解大型多模态模型（LMMs）的能力和特点，发现 GPT-4V 具有处理多种输入、具有广泛通用性的能力，以及通过理解图像上的视觉标记可以创造出新的人机交互方式。我们期望这项初步探索能够激发对下一代多模态任务形式、利用和增强 LMMs 以解决实际问题以及对多模态基础模型有更好理解的未来研究方向的启发。

Sep, 2023