AURORA: 通过自动化神经屏幕理解导航用户界面陷阱

Apr, 2024

AURORA: 通过自动化神经屏幕理解导航用户界面陷阱

AURORA: Navigating UI Tarpits via Automated Neural Screen Understanding

Safwat Ali Khan, Wenyu Wang, Yiran Ren, Bin Zhu, Jiangfan Shi...

TL;DR通过学习移动应用界面中的视觉和文本模式，AURORA引入了一种新的自动语义屏幕理解技术，以有效地避开复杂屏幕进行移动应用程序的探索，其改善了已存在方法的屏幕覆盖率达到19.6％。

Abstract

Nearly a decade of research in software engineering has focused on automating mobile app testing to help engineers in overcoming the unique challenges associated with the software platform. Much of this work has come in the form of Automated Input Generation tools (AIG tools) that dyna

发现论文，激发创造

基于机器学习的移动应用图形用户界面原型设计

本文介绍一种自动化的 GUI 原型设计方法，通过检测、分类和组装实现准确地从 GUI 设计稿生成代码，该方法利用计算机视觉技术、自动化动态分析和深度卷积神经网络来对组件进行分类，并使用基于数据的 K 最近邻算法生成适当的分层 GUI 结构。在 Android 平台上实现了该方法的系统 ReDraw，并取得了评估成果，ReDraw 实现的平均 GUI 组件分类准确率为 91％，组装的原型应用程序的视觉外观与目标 GUI 设计稿非常相似，同时展现合理的代码结构，多位工业从业人员的访谈表明 ReDraw 能够改善真实的开发流程。

Feb, 2018

魔术布局：用户界面设计组件检测的结构先验

本文介绍了 Magic Layouts 方法，该方法可以解析用户界面（UI）布局的截图或手绘草图。它在现有探测器的基础上扩展了一个结构先验，以便能够对 UI 组件进行强大的检测，并且使用该先验的条件区域提案可提高 UI 布局的解析性能。通过一个交互式应用程序，我们演示了该方法对手绘 UI 和应用截图的解析性能的提高，并用于快速获取用户体验（UX）设计的数字原型。

Jun, 2021

学习去噪以提高规模化的原始移动UI布局数据集

本文提出了一种采用深度学习方法进行UI布局去噪的CLAY pipeline，并且在此基础上创建了59,555个人工注解的屏幕布局数据集，通过该数据集建立的深度学习模型可以达到较高的准确性，为数据驱动的移动UI研究提供了高质量的UI布局数据集。

Jan, 2022

应用间检索和设计一致性检查的计算方法

从移动用户界面(UI)中提取语义表示并将这些表示用于设计师的决策过程已显示出成为有效的计算设计支持工具的潜力。我们采用大规模网络图像训练的视觉模型，以零-shot方式提取UI表示并超越现有专门模型，并使用数学基础的方法实现应用程序之间的检索和设计一致性分析。我们的实验表明，我们的方法不仅改进了以前的检索模型，还实现了多个新的应用。

Sep, 2023

ScreenAI：面向用户界面和信息图的视觉语言模型

屏幕用户界面、信息图表、ScreenAI、视觉-语言模型和基于UI和信息图表的任务是该研究论文的关键词和概要。

Feb, 2024

Ferret-UI: 基于多模态 LLMS 的移动 UI 理解

Ferret-UI是一种专门用于增强对移动用户界面（UI）屏幕理解的多模态大型语言模型（MLLM），它具备指代、基础和推理能力，并在学习样本、编码和任务执行方面表现出色。

Apr, 2024

LlamaTouch: 一个忠实且可扩展的移动界面自动化测试床任务评估

LlamaTouch是一种用于在设备上执行代理程序和可信、可扩展代理评估的测试平台，它通过观察任务执行过程只传输UI状态，采用了新颖的评估方法来评估代理程序是否遍历了所有手动注释的应用程序/系统状态。

Apr, 2024

告诉我下一步：通用用户界面表示的文本预测

通过预训练目标Textual Foresight来学习移动应用程序用户界面的表示，该方法能生成给定当前界面和本地操作后的未来界面状态的全局文本描述，并在UI生成任务上比现有技术性能提高了2%，训练数据量减少28倍。使用新构建的移动应用程序数据集OpenApp，发现Textual Foresight相比其他基准方法平均任务性能提高了5.7%，并且使用的数据量减少了2倍。

Jun, 2024

GUI奥德赛：一份针对移动设备的跨应用图形用户界面导航的综合数据集

智能手机用户在不同应用程序之间导航，而自动图形用户界面（GUI）导航代理可以通过简化工作流程和减少手动干预来提高用户在沟通、娱乐和生产力方面的体验。本研究介绍了GUI Odyssey，这是一个用于训练和评估跨应用程序导航代理的综合数据集。通过利用GUI Odyssey，研究人员开发了OdysseyAgent，一个多模式跨应用程序导航代理，其在准确性方面超越了现有模型。

Jun, 2024

关于人工智能启发的用户界面设计

通过本文讨论了三种不同的方法来利用人工智能(AI)来支持应用设计师创造更好、更多样化和更具创意的移动应用界面(UI)：第一种方法是设计师可以使用大型语言模型(LLM)，如GPT，直接生成和调整一个或多个UI；第二种方法是使用视觉-语言模型(VLM)有效地搜索大型截图数据集，例如应用商店中发布的应用；第三种方法是训练一个专门设计用于生成应用界面的扩散模型(DM)，作为启发性图片。我们讨论了如何使用AI来激发和辅助创造性应用设计，而不是自动化它。

Jun, 2024