GUILGET: 基于 Transformer 的 GUI 布局生成
现代的图形用户界面(GUI)展示着不同的文本、图形和交互元素的排列,但 GUI 的表达方式却没有跟上。为了更高效地利用机器学习在 GUI 中的潜力,Graph4GUI 利用图神经网络捕捉了各个元素的属性以及它们之间的语义 - 视觉 - 空间约束关系。通过多项任务的效果验证,学习到的表示尤其在具有挑战性的 GUI 自动补全任务中表现出了其有效性,该任务涉及在部分完成的 GUI 中预测剩余未放置元素的位置。与基准方法相比,新模型的建议显示出更好的对齐和视觉吸引力,并且在主观评分上获得了更高的偏好度。此外,我们还展示了设计师在使用我们的模型作为自动补全插件时所感知到的实际效益和效率优势。
Apr, 2024
本文提出了一种新的生成模型用于布局生成,其分为三个步骤,通过最新的 transformer architecture 来生成布局元素和计算布局元素之间的约束关系,最后采用有约束的优化方法实现布局优化,并与现有技术进行了对比,证明了我们的方法不需要用户输入、产生更高质量的布局,以及能实现许多新颖的有条件布局生成能力。
Nov, 2020
本文介绍一种自动化的 GUI 原型设计方法,通过检测、分类和组装实现准确地从 GUI 设计稿生成代码,该方法利用计算机视觉技术、自动化动态分析和深度卷积神经网络来对组件进行分类,并使用基于数据的 K 最近邻算法生成适当的分层 GUI 结构。在 Android 平台上实现了该方法的系统 ReDraw,并取得了评估成果,ReDraw 实现的平均 GUI 组件分类准确率为 91%,组装的原型应用程序的视觉外观与目标 GUI 设计稿非常相似,同时展现合理的代码结构,多位工业从业人员的访谈表明 ReDraw 能够改善真实的开发流程。
Feb, 2018
本论文提出了一种基于名为 UIClip 的视觉语言模型的 GUI 搜索引擎 GUing,其通过训练特定于应用 GUI 领域的大型数据集,在文本查询中实现了优于以前方法的文本到 GUI 的检索。
Apr, 2024
本文提出了一种基于 Transformer 框架的生成布局模型,可以灵活地融合设计语义,支持用户隐式或显式地指定元素排列约束,并展示了该模型在单模型下可以生成真实的布局。
Aug, 2021
使用大型语言模型的图形用户界面(GUI)自动化在处理复杂任务方面有很大潜力。本论文介绍了一个新的基准测试框架 AssistGUI,评估模型是否能够响应用户请求的任务,在 Windows 平台上操纵鼠标和键盘。实验结果显示,我们的 GUI Parser 和 Reasoning 机制在性能上优于现有方法,但在基准测试中,最佳模型的成功率仅为 46%。通过对当前方法的限制进行彻底分析,为未来在该领域取得突破奠定基础。
Dec, 2023
在图形设计领域,自动化地将设计元素整合为一个连贯的多层艺术作品不仅提高了工作效率,还为图形设计的大众化铺平了道路。本文介绍了一种称为 Hierarchical Layout Generation (HLG) 的更灵活和实用的设置,它从无序的设计元素集合中创建图形构图。通过基于大型多模态模型的图形生成模型 Graphist,我们有效地将 HLG 作为一个序列生成问题来解决,并利用 RGB-A 图像作为输入,输出一个 JSON 草稿协议,指示每个元素的坐标、大小和顺序。我们开发了新的 HLG 评估指标,Graphist 在性能上超过了以往的技术,为该领域奠定了坚实的基础。项目主页:[此处为项目主页的链接]
Apr, 2024
通过建立 LayoutGAN 生成对抗网络,用于建模不同类型的 2D 元素之间的几何关系以合成各种现实布局,同时采用自注意力机制和可微分线框图渲染层进行实现。验证实验包括 MNIST 数字生成、文档布局生成、剪纸抽象场景生成和七巧板图形设计。
Jan, 2019
使用图形用户界面(Graphic User Interface)进行人机交互是访问各种数字工具的基本要素,在最近的视觉语言模型(Vision Language Models,VLMs)的发展中,发现了其潜力,可以开发多功能代理人来帮助人类完成图形用户界面导航任务,然而,现有的视觉语言模型在基本能力(OCR 和定位)和图形用户界面知识(图形用户界面元素的功能和控制方法)方面面临挑战,从而无法成为实用的图形用户界面代理人,为了解决这些挑战,我们提出了 GUICourse,一套用于从通用视觉语言模型中训练基于视觉的图形用户界面代理人的数据集,首先,我们引入了 GUIEnv 数据集来增强视觉语言模型的 OCR 和定位能力,然后,我们引入了 GUIAct 和 GUIChat 数据集来丰富其图形用户界面组件和交互的知识,实验证明,我们的图形用户界面代理人在常见的图形用户界面任务上比基准视觉语言模型具有更好的性能,即使是小型的图形用户界面代理人(具有 31 亿个参数),仍然能够在单步和多步图形用户界面任务上表现良好,最后,我们通过消融研究分析了训练阶段中这个代理人之间的不同变化,我们的源代码和数据集已在此 https URL 上发布。
Jun, 2024
本文提出了一种基于图像元素的深度生成模型 CGL-GAN,并设计了域对齐模块 DAM 来缩小训练和测试输入之间的差距,进而生成符合美感直觉的高质量图形布局。
Apr, 2022