ScreenAI:面向用户界面和信息图的视觉语言模型
通过本文讨论了三种不同的方法来利用人工智能 (AI) 来支持应用设计师创造更好、更多样化和更具创意的移动应用界面 (UI):第一种方法是设计师可以使用大型语言模型 (LLM),如 GPT,直接生成和调整一个或多个 UI;第二种方法是使用视觉 - 语言模型 (VLM) 有效地搜索大型截图数据集,例如应用商店中发布的应用;第三种方法是训练一个专门设计用于生成应用界面的扩散模型 (DM),作为启发性图片。我们讨论了如何使用 AI 来激发和辅助创造性应用设计,而不是自动化它。
Jun, 2024
本研究探索如何利用 UI 说明书中的图像来学习 UI 屏幕及其组件的通用视觉 - 语言表示,并提出了一种名为 Lexi 的预训练模型,该模型可处理 UI 屏幕的独特特点,包括其丰富的文本和上下文敏感性。通过创建包含 114k UI 图像及其功能描述的 UICaption 数据集,我们证明了该模型可用于 UI 行动蕴含和 UI 实体识别等任务。
Jan, 2023
本文构建了一个用于视觉语言模型(VLM)代理与真实计算机屏幕交互的环境,在该环境中,代理可以观察屏幕截图并通过输出鼠标和键盘动作操纵图形用户界面(GUI)。我们还设计了一个自动控制流程,包括规划、执行和反思阶段,指导代理不断与环境交互并完成多步骤任务。此外,我们构建了 ScreenAgent 数据集,收集完成多种日常计算机任务时的屏幕截图和动作序列。最后,我们训练了一个名为 ScreenAgent 的模型,其实现了与 GPT-4V 相媲美的计算机控制能力,并展示了更精确的用户界面定位能力。这些尝试有望进一步激发构建通用性 LLM 代理的研究。源代码可在 https://github.com/niuzaisheng/ScreenAgent 获取。
Feb, 2024
本文提出了一种仅基于移动 UI 的截图进行 UI 建模的方法,命名为 Spotlight,该方法的表现优于使用截图和视图层次结构的方法,并且具有多任务学习和少样本学习能力。
Sep, 2022
Screen2Words 是一种新颖的屏幕总结方法,它可以将 UI 屏幕的基本信息自动封装到一个连贯的语言短语中,并通过多模态学习,使用深度模型,为移动屏幕生成高质量的总结,为语言和用户界面的进一步桥梁奠定基础。
Aug, 2021
本研究提出了一个新的任务和数据集 ScreenQA,旨在通过问答实现对屏幕内容的理解,并在 RICO 数据集上注释了 80,000 多个问题 - 答案对,以期评估屏幕阅读理解能力。
Sep, 2022
建立了一个多模态模型用于将自然语言指令与给定的 UI 屏幕截图联系起来,作为通用的 UI 任务自动执行器,并通过强化学习算法对其进行加强,实验结果表明,该模型在 UI 任务自动化方面表现优异,显示出作为通用 UI 任务自动化 API 的潜力。
Oct, 2023
提出了一种新的预训练范式 —— 基于网络截图的强监督预训练(S4),利用大规模网络截图渲染的数据进行视觉语言模型的预训练。通过使用网络截图,可以获取在图像 - 文本对中不存在的丰富的视觉和文本线索。在 S4 中,利用 HTML 元素的树状层次结构和空间定位,精心设计了 10 个具有大规模注释数据的预训练任务。这些任务类似于不同领域的下游任务,而且注释成本较低。实验证明,与当前的截图预训练目标相比,我们的创新预训练方法显著提高了图像 - 文本模型在九个多样化和热门的下游任务上的性能 —— 在表格检测上提高了 76.1%,在小部件字幕上提高了至少 1%。
Mar, 2024
自主用户界面 (UI) 代理旨在通过与用户界面的自动交互来促进任务自动化。为了对齐于大型语言模型 (LLMs) 的输入 - 输出需求,现有方法在沙盒环境下开发,依赖外部工具和应用特定的 API 将环境解析为文本元素并解释预测的动作。为了减轻这些挑战,我们引入了 Auto-UI,这是一个多模态的解决方案,直接与界面交互,无需环境解析或依赖应用程序相关的 API。此外,我们提出了一种链式动作技术 —— 利用一系列中间的先前动作历史和未来动作计划 —— 以帮助代理决定执行什么动作。我们在一个新的设备控制基准 AITW 上评估了我们的方法,该基准包含 30K 个独特的指令,涵盖应用操作、网络搜索和网购等多步任务。实验结果显示,Auto-UI 实现了 90% 的动作类型预测准确率和 74% 的整体动作成功率。
Sep, 2023
使用生成配对文本 - 图像训练数据的方法,无需人工提供注释,适用于任何 UI 截图数据集,通过将现有的基于像素的方法与大型语言模型(LLM)相结合,对 UI 领域的 VLM 进行自动微调,以实现对 UI 任务的会话式 VLM 模型的性能评估、Q&A、UI 描述、规划以及多步 UI 导航和规划等方面的展示。
Oct, 2023