ScreenAI：面向用户界面和信息图的视觉语言模型

Feb, 2024

ScreenAI：面向用户界面和信息图的视觉语言模型

ScreenAI: A Vision-Language Model for UI and Infographics Understanding

Gilles Baechler, Srinivas Sunkara, Maria Wang, Fedir Zubach, Hassan Mansoor...

TL;DR屏幕用户界面、信息图表、ScreenAI、视觉 - 语言模型和基于 UI 和信息图表的任务是该研究论文的关键词和概要。

Abstract

screen user interfaces (UIs) and infographics, sharing similar visual language and design principles, play important roles in human communication and human-machine interaction. We introduce →

screen user interfaces infographics screenai vision-language model ui- and infographics-based tasks

发现论文，激发创造

关于人工智能启发的用户界面设计

通过本文讨论了三种不同的方法来利用人工智能 (AI) 来支持应用设计师创造更好、更多样化和更具创意的移动应用界面 (UI)：第一种方法是设计师可以使用大型语言模型 (LLM)，如 GPT，直接生成和调整一个或多个 UI；第二种方法是使用视觉 - 语言模型 (VLM) 有效地搜索大型截图数据集，例如应用商店中发布的应用；第三种方法是训练一个专门设计用于生成应用界面的扩散模型 (DM)，作为启发性图片。我们讨论了如何使用 AI 来激发和辅助创造性应用设计，而不是自动化它。

Jun, 2024

Lexi: UI 语言的自监督学习

本研究探索如何利用 UI 说明书中的图像来学习 UI 屏幕及其组件的通用视觉 - 语言表示，并提出了一种名为 Lexi 的预训练模型，该模型可处理 UI 屏幕的独特特点，包括其丰富的文本和上下文敏感性。通过创建包含 114k UI 图像及其功能描述的 UICaption 数据集，我们证明了该模型可用于 UI 行动蕴含和 UI 实体识别等任务。

Jan, 2023

ScreenAgent：基于视觉语言模型的计算机控制代理

本文构建了一个用于视觉语言模型（VLM）代理与真实计算机屏幕交互的环境，在该环境中，代理可以观察屏幕截图并通过输出鼠标和键盘动作操纵图形用户界面（GUI）。我们还设计了一个自动控制流程，包括规划、执行和反思阶段，指导代理不断与环境交互并完成多步骤任务。此外，我们构建了 ScreenAgent 数据集，收集完成多种日常计算机任务时的屏幕截图和动作序列。最后，我们训练了一个名为 ScreenAgent 的模型，其实现了与 GPT-4V 相媲美的计算机控制能力，并展示了更精确的用户界面定位能力。这些尝试有望进一步激发构建通用性 LLM 代理的研究。源代码可在 https://github.com/niuzaisheng/ScreenAgent 获取。

Feb, 2024

移动界面理解：利用视觉 - 语言模型并聚焦

本文提出了一种仅基于移动 UI 的截图进行 UI 建模的方法，命名为 Spotlight，该方法的表现优于使用截图和视图层次结构的方法，并且具有多任务学习和少样本学习能力。

Sep, 2022

Screen2Words: 基于多模态学习的自动移动 UI 摘要

Screen2Words 是一种新颖的屏幕总结方法，它可以将 UI 屏幕的基本信息自动封装到一个连贯的语言短语中，并通过多模态学习，使用深度模型，为移动屏幕生成高质量的总结，为语言和用户界面的进一步桥梁奠定基础。

Aug, 2021

ScreenQA：基于移动应用截图的大规模问答对

本研究提出了一个新的任务和数据集 ScreenQA，旨在通过问答实现对屏幕内容的理解，并在 RICO 数据集上注释了 80,000 多个问题 - 答案对，以期评估屏幕阅读理解能力。

Sep, 2022

增强型用户界面指令基础：走向通用的用户界面任务自动化 API

建立了一个多模态模型用于将自然语言指令与给定的 UI 屏幕截图联系起来，作为通用的 UI 任务自动执行器，并通过强化学习算法对其进行加强，实验结果表明，该模型在 UI 任务自动化方面表现优异，显示出作为通用 UI 任务自动化 API 的潜力。

Oct, 2023

丰富监督提升视觉 - 语言预训练

提出了一种新的预训练范式 —— 基于网络截图的强监督预训练（S4），利用大规模网络截图渲染的数据进行视觉语言模型的预训练。通过使用网络截图，可以获取在图像 - 文本对中不存在的丰富的视觉和文本线索。在 S4 中，利用 HTML 元素的树状层次结构和空间定位，精心设计了 10 个具有大规模注释数据的预训练任务。这些任务类似于不同领域的下游任务，而且注释成本较低。实验证明，与当前的截图预训练目标相比，我们的创新预训练方法显著提高了图像 - 文本模型在九个多样化和热门的下游任务上的性能 —— 在表格检测上提高了 76.1%，在小部件字幕上提高了至少 1%。

Mar, 2024

你只看屏幕：多模态行动训练智能体

自主用户界面 (UI) 代理旨在通过与用户界面的自动交互来促进任务自动化。为了对齐于大型语言模型 (LLMs) 的输入 - 输出需求，现有方法在沙盒环境下开发，依赖外部工具和应用特定的 API 将环境解析为文本元素并解释预测的动作。为了减轻这些挑战，我们引入了 Auto-UI，这是一个多模态的解决方案，直接与界面交互，无需环境解析或依赖应用程序相关的 API。此外，我们提出了一种链式动作技术 —— 利用一系列中间的先前动作历史和未来动作计划 —— 以帮助代理决定执行什么动作。我们在一个新的设备控制基准 AITW 上评估了我们的方法，该基准包含 30K 个独特的指令，涵盖应用操作、网络搜索和网购等多步任务。实验结果显示，Auto-UI 实现了 90% 的动作类型预测准确率和 74% 的整体动作成功率。

Sep, 2023

ILuvUI：从机器对话中调整的语言 - 视觉用户界面建模

使用生成配对文本 - 图像训练数据的方法，无需人工提供注释，适用于任何 UI 截图数据集，通过将现有的基于像素的方法与大型语言模型（LLM）相结合，对 UI 领域的 VLM 进行自动微调，以实现对 UI 任务的会话式 VLM 模型的性能评估、Q&A、UI 描述、规划以及多步 UI 导航和规划等方面的展示。

Oct, 2023