Lexi: UI 语言的自监督学习

EMNLPJan, 2023

Lexi: Self-Supervised Learning of the UI Language

Pratyay Banerjee, Shweti Mahajan, Kushal Arora, Chitta Baral, Oriana Riva

TL;DR本研究探索如何利用 UI 说明书中的图像来学习 UI 屏幕及其组件的通用视觉 - 语言表示，并提出了一种名为 Lexi 的预训练模型，该模型可处理 UI 屏幕的独特特点，包括其丰富的文本和上下文敏感性。通过创建包含 114k UI 图像及其功能描述的 UICaption 数据集，我们证明了该模型可用于 UI 行动蕴含和 UI 实体识别等任务。

Abstract

Humans can learn to operate the user interface (UI) of an application by reading an instruction manual or how-to guide. Along with text, these resources include visual content such as UI screenshots and images of application icons referenced in the text. We explore how to leverage this

ui screens visual content visio-linguistic representations lexi uicaption dataset

发现论文，激发创造

ILuvUI：从机器对话中调整的语言 - 视觉用户界面建模

使用生成配对文本 - 图像训练数据的方法，无需人工提供注释，适用于任何 UI 截图数据集，通过将现有的基于像素的方法与大型语言模型（LLM）相结合，对 UI 领域的 VLM 进行自动微调，以实现对 UI 任务的会话式 VLM 模型的性能评估、Q&A、UI 描述、规划以及多步 UI 导航和规划等方面的展示。

Oct, 2023

ScreenAI：面向用户界面和信息图的视觉语言模型

屏幕用户界面、信息图表、ScreenAI、视觉 - 语言模型和基于 UI 和信息图表的任务是该研究论文的关键词和概要。

Feb, 2024

增强型用户界面指令基础：走向通用的用户界面任务自动化 API

建立了一个多模态模型用于将自然语言指令与给定的 UI 屏幕截图联系起来，作为通用的 UI 任务自动执行器，并通过强化学习算法对其进行加强，实验结果表明，该模型在 UI 任务自动化方面表现优异，显示出作为通用 UI 任务自动化 API 的潜力。

Oct, 2023

关于人工智能启发的用户界面设计

通过本文讨论了三种不同的方法来利用人工智能 (AI) 来支持应用设计师创造更好、更多样化和更具创意的移动应用界面 (UI)：第一种方法是设计师可以使用大型语言模型 (LLM)，如 GPT，直接生成和调整一个或多个 UI；第二种方法是使用视觉 - 语言模型 (VLM) 有效地搜索大型截图数据集，例如应用商店中发布的应用；第三种方法是训练一个专门设计用于生成应用界面的扩散模型 (DM)，作为启发性图片。我们讨论了如何使用 AI 来激发和辅助创造性应用设计，而不是自动化它。

Jun, 2024

计算机用户界面理解：一个新的数据集和学习框架

介绍了计算机用户界面 (UI) 理解的研究课题，包括创造一个视频数据集、合成样本生成管道和对图像进行对比学习的框架，实验证明该框架优于先前提出的层级多标签对比损失在细粒度用户界面分类中的表现。

Mar, 2024

告诉我下一步：通用用户界面表示的文本预测

通过预训练目标 Textual Foresight 来学习移动应用程序用户界面的表示，该方法能生成给定当前界面和本地操作后的未来界面状态的全局文本描述，并在 UI 生成任务上比现有技术性能提高了 2%，训练数据量减少 28 倍。使用新构建的移动应用程序数据集 OpenApp，发现 Textual Foresight 相比其他基准方法平均任务性能提高了 5.7%，并且使用的数据量减少了 2 倍。

Jun, 2024

小部件字幕：为移动用户界面元素生成自然语言描述

提出了一种通过多模态输入自动生成 UI 元素的语言描述的新任务：小部件字幕生成任务，并使用众包收集了一个大规模的包含 162,859 个语言短语的数据集以对此进行深入分析，该数据集涵盖了 21,750 个独特 UI 屏幕中的 61,285 个 UI 元素的结构表示和图像。

Oct, 2020

使用图像字幕生成技术进行自动化软件文档编写的实证研究

本文对 GUI 与自然语言描述软件之间的联系进行了综合实证研究，收集、分析和开源了一个由人类标注者提供的大规模功能 GUI 描述数据集，并探究了四种神经图像字幕模型的表征潜力，以预测不同粒度的自然语言描述，并通过大规模用户研究定量和定性评估了这些模型，最后提出多模态模型的潜力以增强未来的自动化软件文档技术。

Jan, 2023

UICoder: 通过自动反馈对大型语言模型进行微调以生成用户界面代码

通过使用自动生成的合成数据集和自动化工具，我们改进了现有的大型语言模型（LLMs），使其能够生成高质量的用户界面（UI）代码，并通过与其他基准模型的比较证明了我们的方法的有效性。

Jun, 2024

UIBert：为界面理解学习通用多模态表示

本文提出了 UIBert，一种基于 transformer 的联合图像文本模型，通过在大规模未标记的 UI 数据上进行新颖的预训练任务学习 UI 及其组件的通用特征表示，以解决智能设备可访问性和简化使用的问题。实验表明，UIBert 在九个实际 UI 任务中，表现优于强大的多模态基线达到了最高 9.26% 的准确率。

Jul, 2021