计算机用户界面理解：一个新的数据集和学习框架

Mar, 2024

计算机用户界面理解：一个新的数据集和学习框架

Computer User Interface Understanding. A New Dataset and a Learning Framework

Andrés Muñoz, Daniel Borrajo

TL;DR介绍了计算机用户界面 (UI) 理解的研究课题，包括创造一个视频数据集、合成样本生成管道和对图像进行对比学习的框架，实验证明该框架优于先前提出的层级多标签对比损失在细粒度用户界面分类中的表现。

Abstract

User Interface (UI) understanding has been an increasingly popular topic over the last few years. So far, there has been a vast focus solely on web and mobile applications. In this paper, we introduce the harder task of computer UI understanding. With the goal of enabling research in this field, we have generated a →

user interface understanding computer ui understanding dataset synthetic sample generation pipeline contrastive learning method

发现论文，激发创造

Lexi: UI 语言的自监督学习

本研究探索如何利用 UI 说明书中的图像来学习 UI 屏幕及其组件的通用视觉 - 语言表示，并提出了一种名为 Lexi 的预训练模型，该模型可处理 UI 屏幕的独特特点，包括其丰富的文本和上下文敏感性。通过创建包含 114k UI 图像及其功能描述的 UICaption 数据集，我们证明了该模型可用于 UI 行动蕴含和 UI 实体识别等任务。

Jan, 2023

使用图像字幕生成技术进行自动化软件文档编写的实证研究

本文对 GUI 与自然语言描述软件之间的联系进行了综合实证研究，收集、分析和开源了一个由人类标注者提供的大规模功能 GUI 描述数据集，并探究了四种神经图像字幕模型的表征潜力，以预测不同粒度的自然语言描述，并通过大规模用户研究定量和定性评估了这些模型，最后提出多模态模型的潜力以增强未来的自动化软件文档技术。

Jan, 2023

移动界面实现更优语义理解

通过对 RICO 数据集进行标注并使用多模态输入，该论文提出可提高移动设备的可访问性和自动化功能以便于使用的方法，使用户能够更好地了解 UI 元素的功能，并提出了一些创新性的功能，如通过标签引用 UI 元素，提高图标的语义等，以使 UI 对每个人都更加可用。

Oct, 2022

UIClip：一个基于数据的用户界面设计评估模型

通过机器学习模型 UIClip，本研究开发了一种用于评估 UI 设计质量和视觉相关性的方法，通过截图和自然语言描述来对 UI 进行评估，实验证明 UIClip 在与其他基准方法和人工设计师评分进行对比时取得了最高一致性，从而为 UI 设计质量的直接评估提供了便利。

Apr, 2024

关于人工智能启发的用户界面设计

通过本文讨论了三种不同的方法来利用人工智能 (AI) 来支持应用设计师创造更好、更多样化和更具创意的移动应用界面 (UI)：第一种方法是设计师可以使用大型语言模型 (LLM)，如 GPT，直接生成和调整一个或多个 UI；第二种方法是使用视觉 - 语言模型 (VLM) 有效地搜索大型截图数据集，例如应用商店中发布的应用；第三种方法是训练一个专门设计用于生成应用界面的扩散模型 (DM)，作为启发性图片。我们讨论了如何使用 AI 来激发和辅助创造性应用设计，而不是自动化它。

Jun, 2024

ActionBert：利用用户操作实现用户界面的语义理解

该研究介绍了一种基于用户交互轨迹的 UI 理解预训练模型 ActionBert，利用视觉、语言和领域专业特征来预训练 UI 元素的泛化特征表示，以解决 UI 的理解和功能识别的问题，并在图标分类和 UI 组件检索等任务上测试模型的效果。

Dec, 2020

增强型用户界面指令基础：走向通用的用户界面任务自动化 API

建立了一个多模态模型用于将自然语言指令与给定的 UI 屏幕截图联系起来，作为通用的 UI 任务自动执行器，并通过强化学习算法对其进行加强，实验结果表明，该模型在 UI 任务自动化方面表现优异，显示出作为通用 UI 任务自动化 API 的潜力。

Oct, 2023

VISION2UI：从 UI 设计生成代码的带有布局的真实世界数据集

从实际场景中提取和清洗，包含设计愿景和 UI 代码的高质量数据集 VISION2UI 用于细调 Multimodal Large Language Models (MLLMs) 以实现自动化 UI 代码生成。

Apr, 2024

ILuvUI：从机器对话中调整的语言 - 视觉用户界面建模

使用生成配对文本 - 图像训练数据的方法，无需人工提供注释，适用于任何 UI 截图数据集，通过将现有的基于像素的方法与大型语言模型（LLM）相结合，对 UI 领域的 VLM 进行自动微调，以实现对 UI 任务的会话式 VLM 模型的性能评估、Q&A、UI 描述、规划以及多步 UI 导航和规划等方面的展示。

Oct, 2023

工业机器人中的人机交互：可解释 AI 基于机器人程序优化的用户界面设计与实证评估

我们提出了一种用于最新深度学习为基础的机器人程序优化器的解释用户界面（XUI），它提供了不同的用户体验以应对用户的不同技能水平，同时引入了可解释的人工智能（XAI）功能以促进深度学习方法在实际应用中的应用。为了评估 XUI 对任务性能、用户满意度和认知负荷的影响，我们提出了初步用户调查的结果，并提出了一个大规模后续研究的研究设计。

Apr, 2024