IJCAIJul, 2021

UIBert:为界面理解学习通用多模态表示

TL;DR本文提出了 UIBert,一种基于 transformer 的联合图像文本模型,通过在大规模未标记的 UI 数据上进行新颖的预训练任务学习 UI 及其组件的通用特征表示,以解决智能设备可访问性和简化使用的问题。实验表明,UIBert 在九个实际 UI 任务中,表现优于强大的多模态基线达到了最高 9.26% 的准确率。