AURORA: 通过自动化神经屏幕理解导航用户界面陷阱
本文介绍一种自动化的 GUI 原型设计方法,通过检测、分类和组装实现准确地从 GUI 设计稿生成代码,该方法利用计算机视觉技术、自动化动态分析和深度卷积神经网络来对组件进行分类,并使用基于数据的 K 最近邻算法生成适当的分层 GUI 结构。在 Android 平台上实现了该方法的系统 ReDraw,并取得了评估成果,ReDraw 实现的平均 GUI 组件分类准确率为 91%,组装的原型应用程序的视觉外观与目标 GUI 设计稿非常相似,同时展现合理的代码结构,多位工业从业人员的访谈表明 ReDraw 能够改善真实的开发流程。
Feb, 2018
本文介绍了 Magic Layouts 方法,该方法可以解析用户界面(UI)布局的截图或手绘草图。它在现有探测器的基础上扩展了一个结构先验,以便能够对 UI 组件进行强大的检测,并且使用该先验的条件区域提案可提高 UI 布局的解析性能。通过一个交互式应用程序,我们演示了该方法对手绘 UI 和应用截图的解析性能的提高,并用于快速获取用户体验(UX)设计的数字原型。
Jun, 2021
本文提出了一种采用深度学习方法进行UI布局去噪的CLAY pipeline,并且在此基础上创建了59,555个人工注解的屏幕布局数据集,通过该数据集建立的深度学习模型可以达到较高的准确性,为数据驱动的移动UI研究提供了高质量的UI布局数据集。
Jan, 2022
从移动用户界面(UI)中提取语义表示并将这些表示用于设计师的决策过程已显示出成为有效的计算设计支持工具的潜力。我们采用大规模网络图像训练的视觉模型,以零-shot方式提取UI表示并超越现有专门模型,并使用数学基础的方法实现应用程序之间的检索和设计一致性分析。我们的实验表明,我们的方法不仅改进了以前的检索模型,还实现了多个新的应用。
Sep, 2023
Ferret-UI是一种专门用于增强对移动用户界面(UI)屏幕理解的多模态大型语言模型(MLLM),它具备指代、基础和推理能力,并在学习样本、编码和任务执行方面表现出色。
Apr, 2024
LlamaTouch是一种用于在设备上执行代理程序和可信、可扩展代理评估的测试平台,它通过观察任务执行过程只传输UI状态,采用了新颖的评估方法来评估代理程序是否遍历了所有手动注释的应用程序/系统状态。
Apr, 2024
通过预训练目标Textual Foresight来学习移动应用程序用户界面的表示,该方法能生成给定当前界面和本地操作后的未来界面状态的全局文本描述,并在UI生成任务上比现有技术性能提高了2%,训练数据量减少28倍。使用新构建的移动应用程序数据集OpenApp,发现Textual Foresight相比其他基准方法平均任务性能提高了5.7%,并且使用的数据量减少了2倍。
Jun, 2024
智能手机用户在不同应用程序之间导航,而自动图形用户界面(GUI)导航代理可以通过简化工作流程和减少手动干预来提高用户在沟通、娱乐和生产力方面的体验。本研究介绍了GUI Odyssey,这是一个用于训练和评估跨应用程序导航代理的综合数据集。通过利用GUI Odyssey,研究人员开发了OdysseyAgent,一个多模式跨应用程序导航代理,其在准确性方面超越了现有模型。
Jun, 2024
通过本文讨论了三种不同的方法来利用人工智能(AI)来支持应用设计师创造更好、更多样化和更具创意的移动应用界面(UI):第一种方法是设计师可以使用大型语言模型(LLM),如GPT,直接生成和调整一个或多个UI;第二种方法是使用视觉-语言模型(VLM)有效地搜索大型截图数据集,例如应用商店中发布的应用;第三种方法是训练一个专门设计用于生成应用界面的扩散模型(DM),作为启发性图片。我们讨论了如何使用AI来激发和辅助创造性应用设计,而不是自动化它。
Jun, 2024