移动界面理解:利用视觉 - 语言模型并聚焦
本文运用基于深度学习的方法,能够仅基于像素预测移动 UI 截屏中被用户感知为可点击的元素,并运用 ML 可解释性技术解释模型输出结果,其中采用 XRAI 技术突出显示对所选区域的可点击性预测影响最强烈的截屏区域,采用 k - 最近邻方法表示数据集中对可点击性感知产生相反影响的最相似移动 UI。
Apr, 2022
利用大型语言模型和视觉语言模型,我们的研究致力于解决数字助理执行各种用户任务的挑战,特别是在基于指令的移动设备控制领域。通过与用户界面进行交互,我们的模型利用设备屏幕的视觉输入并模拟人类般的交互,包括点击和滑动等手势。这种输入和输出空间的广泛适用性使得我们的代理能够与设备上的任何应用程序进行交互。与以往方法不同的是,我们的模型不仅仅操作单个屏幕图像,还通过过去截图序列和相应操作生成视觉语言句子。在具有挑战性的 “Android in the Wild” 基准测试中评估我们的方法表明其有效性和潜力。
Apr, 2024
通过预训练目标 Textual Foresight 来学习移动应用程序用户界面的表示,该方法能生成给定当前界面和本地操作后的未来界面状态的全局文本描述,并在 UI 生成任务上比现有技术性能提高了 2%,训练数据量减少 28 倍。使用新构建的移动应用程序数据集 OpenApp,发现 Textual Foresight 相比其他基准方法平均任务性能提高了 5.7%,并且使用的数据量减少了 2 倍。
Jun, 2024
我们提出了一种新颖的 Patch-and-Text Prediction (PTP) 目标函数,通过掩盖和恢复截图中的图像块和文本,改善了截图语言模型的文本能力,并通过在 GLUE 任务上获得与 BERT 相当的性能(在 2% 之内)以及高达 8% 的改进,证明了所提出模型的有效性。
Feb, 2024
Screen2Words 是一种新颖的屏幕总结方法,它可以将 UI 屏幕的基本信息自动封装到一个连贯的语言短语中,并通过多模态学习,使用深度模型,为移动屏幕生成高质量的总结,为语言和用户界面的进一步桥梁奠定基础。
Aug, 2021
该研究介绍了一种基于用户交互轨迹的 UI 理解预训练模型 ActionBert,利用视觉、语言和领域专业特征来预训练 UI 元素的泛化特征表示,以解决 UI 的理解和功能识别的问题,并在图标分类和 UI 组件检索等任务上测试模型的效果。
Dec, 2020
建立了一个多模态模型用于将自然语言指令与给定的 UI 屏幕截图联系起来,作为通用的 UI 任务自动执行器,并通过强化学习算法对其进行加强,实验结果表明,该模型在 UI 任务自动化方面表现优异,显示出作为通用 UI 任务自动化 API 的潜力。
Oct, 2023
通过识别关键组件和创建具有受限推理成本的高效模型,重新定义了视觉语言模型的设计,以实现推理吞吐量的显著提高,并保持高性能。
Jun, 2024