UIBert：为界面理解学习通用多模态表示

IJCAIJul, 2021

UIBert：为界面理解学习通用多模态表示

UIBert: Learning Generic Multimodal Representations for UI Understanding

Chongyang Bai, Xiaoxue Zang, Ying Xu, Srinivas Sunkara, Abhinav Rastogi...

TL;DR本文提出了 UIBert，一种基于 transformer 的联合图像文本模型，通过在大规模未标记的 UI 数据上进行新颖的预训练任务学习 UI 及其组件的通用特征表示，以解决智能设备可访问性和简化使用的问题。实验表明，UIBert 在九个实际 UI 任务中，表现优于强大的多模态基线达到了最高 9.26% 的准确率。

Abstract

To improve the accessibility of smart devices and to simplify their usage, building models which understand user interfaces (UIs) and assist users to complete their tasks is critical. However, unique challenges a

smart devices user interfaces multimodal features transformer model pre-training

发现论文，激发创造

ActionBert：利用用户操作实现用户界面的语义理解

该研究介绍了一种基于用户交互轨迹的 UI 理解预训练模型 ActionBert，利用视觉、语言和领域专业特征来预训练 UI 元素的泛化特征表示，以解决 UI 的理解和功能识别的问题，并在图标分类和 UI 组件检索等任务上测试模型的效果。

Dec, 2020

VUT: 面向多模态多任务用户界面建模的通用 UI Transformer

本研究提出了一种 VUT 多任务模型，可以同时完成 UI 镜像和结构编码、UI 对象检测、问题回答和命令接地等 5 个不同的任务。实验结果表明，VUT 在减少多任务模型数量和占用空间的同时，准确度也不逊于单独训练的基准模型。

Dec, 2021

ImageBERT：利用大规模弱监督图像 - 文本数据的跨模态预训练

本文提出了一种新的视觉 - 语言预训练模型 ——ImageBERT，用于图像 - 文本联合嵌入，该模型基于 Transformer，可以将不同的模态作为输入，并建模它们之间的关系。通过多阶段的预训练策略，可以提高预训练质量，最终在图像检索和文本检索任务上获得了新的最先进结果。

Jan, 2020

VU-BERT：一个视觉对话的统一框架

本文提出了一种名为 VU-BERT 图文联合嵌入的框架，通过用 patch projection 获取视觉嵌入来简化模型，从而解决了现有研究中用于建模交互的具有特定模态的模块难以使用的问题，并在可视对话任务上取得了较高的竞争性表现。

Feb, 2022

BERT 模型是否学会使用浏览器用户界面？通过统一的视觉 - 语言 BERT 模型探索多步骤任务

本文探讨了一种结合图形用户界面（GUI）的预训练 Transformer 模型的框架，该框架可以通过多步骤的方式执行多个任务，使用 BERT 扩展来训练该模型，结果表明还有提高其泛化能力的空间。

Mar, 2022

InterBERT：多模态预训练中的视觉 - 语言交互

该论文提出了一种基于多模态预训练的新型模型 InterBERT，通过预训练的方式实现了多个任务，包括掩码片段建模、掩码区域建模和图像与文本匹配，并在视觉和语言下游任务上进行了 fine-tuning，最终实现了基于主题的推荐和基于文本的图像检索。

Mar, 2020

VL-BERT: 通用视觉语言表示的预训练

本研究引入一个新的预可训练的通用视觉语言表示方法 ——Visual-Linguistic BERT，它采用了简单而强大的 Transformer 模型作为骨干网络，并将视觉和语言嵌入特征扩展为输入。通过在大规模的 Conceptual Captions 数据集上进行文本预训练，VL-BERT 可以适配大多数视觉语言下游任务，并在可视化常识推理、视觉问答、指称理解等下游任务中取得了不错的效果。

Aug, 2019

ViLBERT：预训练无任务束缚的视觉语言表示，用于视觉与语言任务

ViLBERT 是一种用于学习图像内容和自然语言的任务不可知联合表示的模型，并通过在多模态两个流中处理图像和文本输入，通过相互关注变压器层实现交互。我们通过在大型自动收集的概念字幕数据集上执行两个代理任务来预训练我们的模型，然后通过仅对基础体系结构进行轻微添加，将其转移到多个已建立的视觉语言任务 —— 视觉问答、视觉常识推理、指称表达和基于字幕的图像检索，我们观察到与现有特定任务模型相比，在所有四个任务中都实现了显着的改进，成为学习视觉与语言之间接地只作为任务培训的一部分，而不是对待视觉接地作为可预训练和可转移能力的代表性工作。

Aug, 2019

双向图像与文本生成统一多模态转换器

本文研究了图片到文本和文本到图片生成的联合学习，使用了基于 Transformer 的单个多模式模型来统一学习双向任务，并通过两级粒度特征表示和序列级训练进一步改进 Transformer 的统一框架，实验证明，该方法显著提高了先前基于 Transformer 的模型 X-LXMERT 的文本到图像生成的 FID（37.0→29.9）和在 MS-COCO 数据集上对细调图像到文本生成的 CIDEr-D 得分（100.9%→122.6%）。

Oct, 2021

增强型用户界面指令基础：走向通用的用户界面任务自动化 API

建立了一个多模态模型用于将自然语言指令与给定的 UI 屏幕截图联系起来，作为通用的 UI 任务自动执行器，并通过强化学习算法对其进行加强，实验结果表明，该模型在 UI 任务自动化方面表现优异，显示出作为通用 UI 任务自动化 API 的潜力。

Oct, 2023