CogAgent：GUI 代理的视觉语言模型

Dec, 2023

CogAgent: A Visual Language Model for GUI Agents

Wenyi Hong, Weihan Wang, Qingsong Lv, Jiazheng Xu, Wenmeng Yu...

TL;DR本研究介绍了 CogAgent，这是一个在 GUI 理解和导航方面专门使用的 180 亿参数的视觉语言模型，通过低分辨率和高分辨率图像编码器，支持 1120*1120 分辨率的输入，能够识别微小的页面元素和文本。CogAgent 在五个文本丰富和四个通用的 VQA 基准测试中达到了最新的技术水平，在 PC 和 Android 的 GUI 导航任务中超过了 LLM 方法，从而推动了技术的发展。

Abstract

People are spending an enormous amount of time on digital devices through graphical user interfaces (GUIs), e.g., computer or smartphone screens. Large →

digital devices graphical user interfaces language models gui understanding automation levels

发现论文，激发创造

ScreenAgent：基于视觉语言模型的计算机控制代理

本文构建了一个用于视觉语言模型（VLM）代理与真实计算机屏幕交互的环境，在该环境中，代理可以观察屏幕截图并通过输出鼠标和键盘动作操纵图形用户界面（GUI）。我们还设计了一个自动控制流程，包括规划、执行和反思阶段，指导代理不断与环境交互并完成多步骤任务。此外，我们构建了 ScreenAgent 数据集，收集完成多种日常计算机任务时的屏幕截图和动作序列。最后，我们训练了一个名为 ScreenAgent 的模型，其实现了与 GPT-4V 相媲美的计算机控制能力，并展示了更精确的用户界面定位能力。这些尝试有望进一步激发构建通用性 LLM 代理的研究。源代码可在 https://github.com/niuzaisheng/ScreenAgent 获取。

Feb, 2024

GUI 课程：从通用视觉语言模型到多功能 GUI 代理

使用图形用户界面（Graphic User Interface）进行人机交互是访问各种数字工具的基本要素，在最近的视觉语言模型（Vision Language Models，VLMs）的发展中，发现了其潜力，可以开发多功能代理人来帮助人类完成图形用户界面导航任务，然而，现有的视觉语言模型在基本能力（OCR 和定位）和图形用户界面知识（图形用户界面元素的功能和控制方法）方面面临挑战，从而无法成为实用的图形用户界面代理人，为了解决这些挑战，我们提出了 GUICourse，一套用于从通用视觉语言模型中训练基于视觉的图形用户界面代理人的数据集，首先，我们引入了 GUIEnv 数据集来增强视觉语言模型的 OCR 和定位能力，然后，我们引入了 GUIAct 和 GUIChat 数据集来丰富其图形用户界面组件和交互的知识，实验证明，我们的图形用户界面代理人在常见的图形用户界面任务上比基准视觉语言模型具有更好的性能，即使是小型的图形用户界面代理人（具有 31 亿个参数），仍然能够在单步和多步图形用户界面任务上表现良好，最后，我们通过消融研究分析了训练阶段中这个代理人之间的不同变化，我们的源代码和数据集已在此 https URL 上发布。

Jun, 2024

智能手机图形用户界面自动化的综合认知 LLM 代理

我们提出了一种全面认知的大型语言模型代理，CoCo-Agent，通过全面环境感知和条件化行动预测的两种新方法系统地提高了图形用户界面自动化性能。我们的代理在 AITW 和 META-GUI 基准测试中取得了最新的最佳表现，展示了在现实场景中的巨大潜力。

Feb, 2024

GUI-WORLD: GUI 导向的多模态基于 LLM 的 Agent 数据集

该研究论文介绍了一个新的数据集，名为 GUI-World，包含六种 GUI 场景和八种 GUI 问题类型的人工 - MLLM 注释，评估了当前最先进的 MLLMs（包括 ImageLLMs 和 VideoLLMs）在理解各种 GUI 内容方面的能力，发现 ImageLLMs 在没有手动注释的关键帧或操作历史的情况下难以处理动态 GUI 内容，而 VideoLLMs 在 GUI 视频数据集稀缺的情况下在所有 GUI 任务中表现不佳。然而，作者通过利用 Fine-tuned VideoLLM 作为 GUI agent 迈出了一步，展示了对各种 GUI 任务的改进理解，但由于基础 LLMs 的性能限制，使用 VideoLLMs 作为 GUI agent 仍然是一个重大挑战，研究为未来动态 GUI 内容理解的研究提供了有价值的见解。

Jun, 2024

ASSISTGUI：面向任务的桌面图形用户界面自动化

使用大型语言模型的图形用户界面（GUI）自动化在处理复杂任务方面有很大潜力。本论文介绍了一个新的基准测试框架 AssistGUI，评估模型是否能够响应用户请求的任务，在 Windows 平台上操纵鼠标和键盘。实验结果显示，我们的 GUI Parser 和 Reasoning 机制在性能上优于现有方法，但在基准测试中，最佳模型的成功率仅为 46％。通过对当前方法的限制进行彻底分析，为未来在该领域取得突破奠定基础。

Dec, 2023

GAgent：具有视觉语言模型的适应性刚柔抓取代理在复杂照明环境中

本文介绍了一个设计用于开放环境的 GAgent：一种通过 VLM 代理和可变刚度软握持器提供高级认知能力的抓取代理。GAgent 由 Prompt Engineer 模块、视觉语言模型（VLM）核心和工作流模块组成。这三个模块通过识别对象和物料以及在具有挑战性的照明条件下准确估计握持区域能够提高夹持成功率。作为创造性的一部分，研究人员还创建了一种具有可变刚度的仿生混合软握持器，能够夹持重负载同时轻柔地接触物体。这种具备基于 VLM 的认知处理和仿生设计的智能代理显示出潜力，有望在各种场景下为无人机带来益处。

Mar, 2024

V-Zen：高效 GUI 理解与准确引用的新型多模态 LLM

V-Zen 是一款创新的多模态大语言模型，通过双分辨率图像编码器在 GUI 理解和下一步行动预测方面取得了突破性的成果，并与 GUIDE 数据集成功集成，标志着多模态人工智能研究的新时代的来临。

May, 2024

GPT-4V 在仙境中：用于零封注册手机 GUI 导航的大型多模态模型

使用基于 GPT-4V 的 MM-Navigator 代理，通过先进的屏幕解析、动作推理和精确的动作定位能力，在智能手机图形用户界面（GUI）导航任务中实现了零射击导航，并在 iOS 和 Android 上展示了优异的性能。

Nov, 2023

CogVLM：预训练语言模型的视觉专家

CogVLM 是一种强大的开源视觉语言基础模型，通过可训练的视觉专家模块在注意力和前馈网络层之间填补了预训练语言模型和图像编码器之间的差距，实现了视觉语言特征的深度融合，而不会牺牲在自然语言处理任务上的性能，在 10 个经典的跨模态基准测试中取得了最先进的性能，包括 NoCaps，Flicker30k 字幕，RefCOCO，RefCOCO +，RefCOCOg，Visual7W，GQA，ScienceQA，VizWiz VQA 和 TDIUC，在 VQAv2，OKVQA，TextVQA，COCO 字幕等方面排名第二，超过或与 PaLI-X 55B 相匹配。

Nov, 2023

VGA: 视觉 GUI 助手 -- 通过图像中心的微调减少幻觉

我们提出了一种名为 VGA 的细调模型，旨在提升对图形用户界面（GUI）的理解能力，减少幻觉和错误响应。我们构建了一个 63.8k 高质量示例的 Vision Question Answering（VQA）数据集，并设计了一种名为 Foundation and Advanced Comprehension（FAC）的两阶段细调方法来增强对图像内容的信息提取能力和与人类意图的对齐。实验证明我们的方法提高了从图像中提取信息的能力，并在 GUI 理解任务中取得了最新的成果。我们的数据集和细调脚本将很快发布。

Jun, 2024