GUing: 使用视觉语言模型的移动 GUI 搜索引擎

Apr, 2024

GUing: 使用视觉语言模型的移动 GUI 搜索引擎

GUing: A Mobile GUI Search Engine using a Vision-Language Model

Jialiang Wei, Anne-Lise Courbis, Thomas Lambolais, Binbin Xu, Pierre Louis Bernard...

TL;DR本论文提出了一种基于名为 UIClip 的视觉语言模型的 GUI 搜索引擎 GUing，其通过训练特定于应用 GUI 领域的大型数据集，在文本查询中实现了优于以前方法的文本到 GUI 的检索。

Abstract

App developers use the Graphical User Interface (GUI) of other apps as an important source of inspiration to design and improve their own apps. In recent years, research suggested various approaches to retrieve GUI designs that fit a certain text query from screenshot datasets acquired through automated GUI exploration. However, such →

gui search engine uiclip app screenshots vision-language model text-to-gui retrieval

发现论文，激发创造

使用图像字幕生成技术进行自动化软件文档编写的实证研究

本文对 GUI 与自然语言描述软件之间的联系进行了综合实证研究，收集、分析和开源了一个由人类标注者提供的大规模功能 GUI 描述数据集，并探究了四种神经图像字幕模型的表征潜力，以预测不同粒度的自然语言描述，并通过大规模用户研究定量和定性评估了这些模型，最后提出多模态模型的潜力以增强未来的自动化软件文档技术。

Jan, 2023

UIClip：一个基于数据的用户界面设计评估模型

通过机器学习模型 UIClip，本研究开发了一种用于评估 UI 设计质量和视觉相关性的方法，通过截图和自然语言描述来对 UI 进行评估，实验证明 UIClip 在与其他基准方法和人工设计师评分进行对比时取得了最高一致性，从而为 UI 设计质量的直接评估提供了便利。

Apr, 2024

GUI 课程：从通用视觉语言模型到多功能 GUI 代理

使用图形用户界面（Graphic User Interface）进行人机交互是访问各种数字工具的基本要素，在最近的视觉语言模型（Vision Language Models，VLMs）的发展中，发现了其潜力，可以开发多功能代理人来帮助人类完成图形用户界面导航任务，然而，现有的视觉语言模型在基本能力（OCR 和定位）和图形用户界面知识（图形用户界面元素的功能和控制方法）方面面临挑战，从而无法成为实用的图形用户界面代理人，为了解决这些挑战，我们提出了 GUICourse，一套用于从通用视觉语言模型中训练基于视觉的图形用户界面代理人的数据集，首先，我们引入了 GUIEnv 数据集来增强视觉语言模型的 OCR 和定位能力，然后，我们引入了 GUIAct 和 GUIChat 数据集来丰富其图形用户界面组件和交互的知识，实验证明，我们的图形用户界面代理人在常见的图形用户界面任务上比基准视觉语言模型具有更好的性能，即使是小型的图形用户界面代理人（具有 31 亿个参数），仍然能够在单步和多步图形用户界面任务上表现良好，最后，我们通过消融研究分析了训练阶段中这个代理人之间的不同变化，我们的源代码和数据集已在此 https URL 上发布。

Jun, 2024

应用间检索和设计一致性检查的计算方法

从移动用户界面 (UI) 中提取语义表示并将这些表示用于设计师的决策过程已显示出成为有效的计算设计支持工具的潜力。我们采用大规模网络图像训练的视觉模型，以零 - shot 方式提取 UI 表示并超越现有专门模型，并使用数学基础的方法实现应用程序之间的检索和设计一致性分析。我们的实验表明，我们的方法不仅改进了以前的检索模型，还实现了多个新的应用。

Sep, 2023

SeeClick: 利用 GUI 基础为高级视觉 GUI 代理准备

通过仅依赖屏幕截图进行任务自动化，我们提出了一个视觉图形用户界面代理 - SeeClick，以解决开发图形用户界面代理的一个关键挑战：准确定位基于指令的屏幕元素。通过 GUI 定位的优化，我们观察到在各种基线测试中，SeeClick 在 ScreenSpot 上取得了显著提升，并且对三个广泛使用的基准测试进行的综合评估一致支持我们的发现：GUI 定位的进展与下游 GUI 代理任务的性能提升直接相关。

Jan, 2024

使用 ViT CLIP 的通用图像描述符用于开放世界图像检索

本文介绍了 Google Universal Image Embedding Challenge 竞赛中 4th place 的解决方案，重点讲述了用 CLIP 对零样本 Vision Transformers 进行微调的技巧，从而在多领域图像表示方面取得优秀的效果。

Oct, 2022

ASSISTGUI：面向任务的桌面图形用户界面自动化

使用大型语言模型的图形用户界面（GUI）自动化在处理复杂任务方面有很大潜力。本论文介绍了一个新的基准测试框架 AssistGUI，评估模型是否能够响应用户请求的任务，在 Windows 平台上操纵鼠标和键盘。实验结果显示，我们的 GUI Parser 和 Reasoning 机制在性能上优于现有方法，但在基准测试中，最佳模型的成功率仅为 46％。通过对当前方法的限制进行彻底分析，为未来在该领域取得突破奠定基础。

Dec, 2023

基于机器学习的移动应用图形用户界面原型设计

本文介绍一种自动化的 GUI 原型设计方法，通过检测、分类和组装实现准确地从 GUI 设计稿生成代码，该方法利用计算机视觉技术、自动化动态分析和深度卷积神经网络来对组件进行分类，并使用基于数据的 K 最近邻算法生成适当的分层 GUI 结构。在 Android 平台上实现了该方法的系统 ReDraw，并取得了评估成果，ReDraw 实现的平均 GUI 组件分类准确率为 91％，组装的原型应用程序的视觉外观与目标 GUI 设计稿非常相似，同时展现合理的代码结构，多位工业从业人员的访谈表明 ReDraw 能够改善真实的开发流程。

Feb, 2018

关于人工智能启发的用户界面设计

通过本文讨论了三种不同的方法来利用人工智能 (AI) 来支持应用设计师创造更好、更多样化和更具创意的移动应用界面 (UI)：第一种方法是设计师可以使用大型语言模型 (LLM)，如 GPT，直接生成和调整一个或多个 UI；第二种方法是使用视觉 - 语言模型 (VLM) 有效地搜索大型截图数据集，例如应用商店中发布的应用；第三种方法是训练一个专门设计用于生成应用界面的扩散模型 (DM)，作为启发性图片。我们讨论了如何使用 AI 来激发和辅助创造性应用设计，而不是自动化它。

Jun, 2024

VideoGUI: 从教学视频中的 GUI 自动化基准

通过视频 GUI 评估可视化导向的图形用户界面 (GUI) 任务上 GUI 助手的表现，并发现当前最先进的大型多模态模型 GPT4o 在高级规划方面表现不佳。

Jun, 2024