计算机用户界面理解:一个新的数据集和学习框架
本研究探索如何利用 UI 说明书中的图像来学习 UI 屏幕及其组件的通用视觉 - 语言表示,并提出了一种名为 Lexi 的预训练模型,该模型可处理 UI 屏幕的独特特点,包括其丰富的文本和上下文敏感性。通过创建包含 114k UI 图像及其功能描述的 UICaption 数据集,我们证明了该模型可用于 UI 行动蕴含和 UI 实体识别等任务。
Jan, 2023
本文对 GUI 与自然语言描述软件之间的联系进行了综合实证研究,收集、分析和开源了一个由人类标注者提供的大规模功能 GUI 描述数据集,并探究了四种神经图像字幕模型的表征潜力,以预测不同粒度的自然语言描述,并通过大规模用户研究定量和定性评估了这些模型,最后提出多模态模型的潜力以增强未来的自动化软件文档技术。
Jan, 2023
通过对 RICO 数据集进行标注并使用多模态输入,该论文提出可提高移动设备的可访问性和自动化功能以便于使用的方法,使用户能够更好地了解 UI 元素的功能,并提出了一些创新性的功能,如通过标签引用 UI 元素,提高图标的语义等,以使 UI 对每个人都更加可用。
Oct, 2022
通过机器学习模型 UIClip,本研究开发了一种用于评估 UI 设计质量和视觉相关性的方法,通过截图和自然语言描述来对 UI 进行评估,实验证明 UIClip 在与其他基准方法和人工设计师评分进行对比时取得了最高一致性,从而为 UI 设计质量的直接评估提供了便利。
Apr, 2024
通过本文讨论了三种不同的方法来利用人工智能 (AI) 来支持应用设计师创造更好、更多样化和更具创意的移动应用界面 (UI):第一种方法是设计师可以使用大型语言模型 (LLM),如 GPT,直接生成和调整一个或多个 UI;第二种方法是使用视觉 - 语言模型 (VLM) 有效地搜索大型截图数据集,例如应用商店中发布的应用;第三种方法是训练一个专门设计用于生成应用界面的扩散模型 (DM),作为启发性图片。我们讨论了如何使用 AI 来激发和辅助创造性应用设计,而不是自动化它。
Jun, 2024
该研究介绍了一种基于用户交互轨迹的 UI 理解预训练模型 ActionBert,利用视觉、语言和领域专业特征来预训练 UI 元素的泛化特征表示,以解决 UI 的理解和功能识别的问题,并在图标分类和 UI 组件检索等任务上测试模型的效果。
Dec, 2020
建立了一个多模态模型用于将自然语言指令与给定的 UI 屏幕截图联系起来,作为通用的 UI 任务自动执行器,并通过强化学习算法对其进行加强,实验结果表明,该模型在 UI 任务自动化方面表现优异,显示出作为通用 UI 任务自动化 API 的潜力。
Oct, 2023
从实际场景中提取和清洗,包含设计愿景和 UI 代码的高质量数据集 VISION2UI 用于细调 Multimodal Large Language Models (MLLMs) 以实现自动化 UI 代码生成。
Apr, 2024
使用生成配对文本 - 图像训练数据的方法,无需人工提供注释,适用于任何 UI 截图数据集,通过将现有的基于像素的方法与大型语言模型(LLM)相结合,对 UI 领域的 VLM 进行自动微调,以实现对 UI 任务的会话式 VLM 模型的性能评估、Q&A、UI 描述、规划以及多步 UI 导航和规划等方面的展示。
Oct, 2023
我们提出了一种用于最新深度学习为基础的机器人程序优化器的解释用户界面(XUI),它提供了不同的用户体验以应对用户的不同技能水平,同时引入了可解释的人工智能(XAI)功能以促进深度学习方法在实际应用中的应用。为了评估 XUI 对任务性能、用户满意度和认知负荷的影响,我们提出了初步用户调查的结果,并提出了一个大规模后续研究的研究设计。
Apr, 2024