学习去噪以提高规模化的原始移动 UI 布局数据集
通过对 RICO 数据集进行标注并使用多模态输入,该论文提出可提高移动设备的可访问性和自动化功能以便于使用的方法,使用户能够更好地了解 UI 元素的功能,并提出了一些创新性的功能,如通过标签引用 UI 元素,提高图标的语义等,以使 UI 对每个人都更加可用。
Oct, 2022
为了解决有限多样性数据集对深度学习模型的影响问题,我们引入了一个包含空间位置、范围和布局元素类型的标签的合成文档数据集 RanLayNet。经过实验证明,使用我们的数据集训练的深度布局识别模型相比仅使用实际文档训练的模型表现更优。此外,我们通过对 Doclaynet 数据集使用 PubLayNet 和 IIIT-AR-13K 数据集的微调模型进行比较分析,发现使用我们的数据集进行增强的模型在科学文档领域的 TABLE 类任务中取得了 0.398 和 0.588 的 mAP95 分数。
Apr, 2024
从移动用户界面 (UI) 中提取语义表示并将这些表示用于设计师的决策过程已显示出成为有效的计算设计支持工具的潜力。我们采用大规模网络图像训练的视觉模型,以零 - shot 方式提取 UI 表示并超越现有专门模型,并使用数学基础的方法实现应用程序之间的检索和设计一致性分析。我们的实验表明,我们的方法不仅改进了以前的检索模型,还实现了多个新的应用。
Sep, 2023
本文运用基于深度学习的方法,能够仅基于像素预测移动 UI 截屏中被用户感知为可点击的元素,并运用 ML 可解释性技术解释模型输出结果,其中采用 XRAI 技术突出显示对所选区域的可点击性预测影响最强烈的截屏区域,采用 k - 最近邻方法表示数据集中对可点击性感知产生相反影响的最相似移动 UI。
Apr, 2022
本文介绍了 WeLayout 的设计和实现,该系统利用 DINO 和 YOLO 模型进行了 ICDAR2023 比赛上对齐的版面分割。使用数据增强、模型架构、边界框细化、模型集成以及贝叶斯优化算法等技术,我们取得了优异的表现,mAP 分数达到了 70.0,并展示了对查询驱动和无锚定模型相结合的优势,以实现企业文档中的鲁棒的版面分割。
May, 2023
该论文提出了一种从单个全景图像中恢复室内场景的三维布局恢复新方法,该方法结合几何推理和深度学习技术,从而提取结构角并生成房间的布局模型,并在 SUN360 和 Stanford 公共数据集上进行实验。
Jun, 2018
从实际场景中提取和清洗,包含设计愿景和 UI 代码的高质量数据集 VISION2UI 用于细调 Multimodal Large Language Models (MLLMs) 以实现自动化 UI 代码生成。
Apr, 2024
本文介绍了 Magic Layouts 方法,该方法可以解析用户界面(UI)布局的截图或手绘草图。它在现有探测器的基础上扩展了一个结构先验,以便能够对 UI 组件进行强大的检测,并且使用该先验的条件区域提案可提高 UI 布局的解析性能。通过一个交互式应用程序,我们演示了该方法对手绘 UI 和应用截图的解析性能的提高,并用于快速获取用户体验(UX)设计的数字原型。
Jun, 2021
本文介绍一种自动化的 GUI 原型设计方法,通过检测、分类和组装实现准确地从 GUI 设计稿生成代码,该方法利用计算机视觉技术、自动化动态分析和深度卷积神经网络来对组件进行分类,并使用基于数据的 K 最近邻算法生成适当的分层 GUI 结构。在 Android 平台上实现了该方法的系统 ReDraw,并取得了评估成果,ReDraw 实现的平均 GUI 组件分类准确率为 91%,组装的原型应用程序的视觉外观与目标 GUI 设计稿非常相似,同时展现合理的代码结构,多位工业从业人员的访谈表明 ReDraw 能够改善真实的开发流程。
Feb, 2018