移动界面理解：利用视觉 - 语言模型并聚焦

ICLRSep, 2022

移动界面理解：利用视觉 - 语言模型并聚焦

Spotlight: Mobile UI Understanding using Vision-Language Models with a Focus

Gang Li, Yang Li

TL;DR本文提出了一种仅基于移动 UI 的截图进行 UI 建模的方法，命名为 Spotlight，该方法的表现优于使用截图和视图层次结构的方法，并且具有多任务学习和少样本学习能力。

Abstract

mobile ui understanding is important for enabling various interaction tasks such as UI automation and accessibility. Previous mobile ui modeling<

mobile ui vision-only spotlight modeling multi-task learning

发现论文，激发创造

利用视觉建模和显著性分析预测和解释移动 UI 的可点击性

本文运用基于深度学习的方法，能够仅基于像素预测移动 UI 截屏中被用户感知为可点击的元素，并运用 ML 可解释性技术解释模型输出结果，其中采用 XRAI 技术突出显示对所选区域的可点击性预测影响最强烈的截屏区域，采用 k - 最近邻方法表示数据集中对可点击性感知产生相反影响的最相似移动 UI。

Apr, 2022

ScreenAI：面向用户界面和信息图的视觉语言模型

屏幕用户界面、信息图表、ScreenAI、视觉 - 语言模型和基于 UI 和信息图表的任务是该研究论文的关键词和概要。

Feb, 2024

训练一种视觉语言模型作为智能手机助手

利用大型语言模型和视觉语言模型，我们的研究致力于解决数字助理执行各种用户任务的挑战，特别是在基于指令的移动设备控制领域。通过与用户界面进行交互，我们的模型利用设备屏幕的视觉输入并模拟人类般的交互，包括点击和滑动等手势。这种输入和输出空间的广泛适用性使得我们的代理能够与设备上的任何应用程序进行交互。与以往方法不同的是，我们的模型不仅仅操作单个屏幕图像，还通过过去截图序列和相应操作生成视觉语言句子。在具有挑战性的 “Android in the Wild” 基准测试中评估我们的方法表明其有效性和潜力。

Apr, 2024

告诉我下一步：通用用户界面表示的文本预测

通过预训练目标 Textual Foresight 来学习移动应用程序用户界面的表示，该方法能生成给定当前界面和本地操作后的未来界面状态的全局文本描述，并在 UI 生成任务上比现有技术性能提高了 2%，训练数据量减少 28 倍。使用新构建的移动应用程序数据集 OpenApp，发现 Textual Foresight 相比其他基准方法平均任务性能提高了 5.7%，并且使用的数据量减少了 2 倍。

Jun, 2024

从屏幕截图提升语言理解能力

我们提出了一种新颖的 Patch-and-Text Prediction (PTP) 目标函数，通过掩盖和恢复截图中的图像块和文本，改善了截图语言模型的文本能力，并通过在 GLUE 任务上获得与 BERT 相当的性能（在 2% 之内）以及高达 8% 的改进，证明了所提出模型的有效性。

Feb, 2024

Screen2Words: 基于多模态学习的自动移动 UI 摘要

Screen2Words 是一种新颖的屏幕总结方法，它可以将 UI 屏幕的基本信息自动封装到一个连贯的语言短语中，并通过多模态学习，使用深度模型，为移动屏幕生成高质量的总结，为语言和用户界面的进一步桥梁奠定基础。

Aug, 2021

ActionBert：利用用户操作实现用户界面的语义理解

该研究介绍了一种基于用户交互轨迹的 UI 理解预训练模型 ActionBert，利用视觉、语言和领域专业特征来预训练 UI 元素的泛化特征表示，以解决 UI 的理解和功能识别的问题，并在图标分类和 UI 组件检索等任务上测试模型的效果。

Dec, 2020

增强型用户界面指令基础：走向通用的用户界面任务自动化 API

建立了一个多模态模型用于将自然语言指令与给定的 UI 屏幕截图联系起来，作为通用的 UI 任务自动执行器，并通过强化学习算法对其进行加强，实验结果表明，该模型在 UI 任务自动化方面表现优异，显示出作为通用 UI 任务自动化 API 的潜力。

Oct, 2023

语言与视觉助手在视觉环境下的高效自然语言理解：阅读和推理中哪些是重要的

通过识别关键组件和创建具有受限推理成本的高效模型，重新定义了视觉语言模型的设计，以实现推理吞吐量的显著提高，并保持高性能。

Jun, 2024

屏幕识别：从像素创建移动应用的可访问性元数据

本文介绍使用屏幕识别的方法来推断移动应用程序的辅助功能元数据，以改善移动应用程序的可访问性，从而使以前无法使用的应用程序能够被使用。

Jan, 2021