pix2code:从图形用户界面截图生成代码
该论文提出了 DCGen,一种基于分而治之的方法,用于自动将网页设计转化为 UI 代码。在真实世界的网站数据集和各种多模态大语言模型的广泛测试中,DCGen 在视觉相似性方面的性能较竞争方法提高了 14%。据我们所知,DCGen 是第一种从屏幕截图直接生成 UI 代码的分段感知提示方法。
Jun, 2024
该论文提出了一种基于注意力机制的分层代码生成模型,可更细致地描述图形用户界面 (GUI) 中的图片,并生成与 GUI 中图形元素的分层布局一致的代码,通过实验证明该模型优于当下其他最先进的方法。
Oct, 2018
本文提出了两种途径以自动化用户界面模板代码开发,一种是使用传统的计算机视觉技术,另一种则运用深度语义分割网络的新应用。通过我们设计的新评估框架的评估表明,我们的深度学习方法优于传统的计算机视觉方法,我们得出结论:深度学习是未来研究的最有前途的方向。
May, 2019
本文提出了一种新颖的视觉 - 代码转换器方法,并探索了 Actor-Critic 微调作为提高基线的一种方法,用于从屏幕截图生成高质量代码片段,其性能表现突出,在自动化度量方面表现强大。
May, 2023
使用深度神经网络从 UI 草图中检测 UI 元素并生成平台无关的 UI 表现形式,进而使用 UI 解析器创建多平台 UI 原型,从而加速 UI 原型开发(平均时间:129 毫秒)。
Oct, 2019
本篇论文探讨了使用深度学习和计算机视觉技术从手绘图像生成 Web 应用程序的骨架代码的新方法,以提高全栈网站开发的效率。
Nov, 2022
本研究提出一种使用基于像素的屏幕截图和一般的鼠标和键盘动作空间来模拟人与数字世界互动的智能代理。通过依赖于最近的像素预训练技术,该代理在 GUI 任务的 MinWob ++ 基准测试中表现出比人类众包工人更好的性能。
May, 2023
本文对 GUI 与自然语言描述软件之间的联系进行了综合实证研究,收集、分析和开源了一个由人类标注者提供的大规模功能 GUI 描述数据集,并探究了四种神经图像字幕模型的表征潜力,以预测不同粒度的自然语言描述,并通过大规模用户研究定量和定性评估了这些模型,最后提出多模态模型的潜力以增强未来的自动化软件文档技术。
Jan, 2023
通过综合评估,我们发现 GPT-4V 在将视觉设计转换为代码实现的任务中表现最佳,其生成的网页在视觉外观和内容方面可以替代原始参考网页的 49%,并且在 64%的情况下被认为比原始参考网页更好。
Mar, 2024
本文介绍一种自动化的 GUI 原型设计方法,通过检测、分类和组装实现准确地从 GUI 设计稿生成代码,该方法利用计算机视觉技术、自动化动态分析和深度卷积神经网络来对组件进行分类,并使用基于数据的 K 最近邻算法生成适当的分层 GUI 结构。在 Android 平台上实现了该方法的系统 ReDraw,并取得了评估成果,ReDraw 实现的平均 GUI 组件分类准确率为 91%,组装的原型应用程序的视觉外观与目标 GUI 设计稿非常相似,同时展现合理的代码结构,多位工业从业人员的访谈表明 ReDraw 能够改善真实的开发流程。
Feb, 2018