强化学习微调的视觉 - 编码转换器用于 UI 转码生成

May, 2023

强化学习微调的视觉 - 编码转换器用于 UI 转码生成

Reinforcement Learning finetuned Vision-Code Transformer for UI-to-Code Generation

Davit Soselia, Khalid Saifullah, Tianyi Zhou

TL;DR本文提出了一种新颖的视觉 - 代码转换器方法，并探索了 Actor-Critic 微调作为提高基线的一种方法，用于从屏幕截图生成高质量代码片段，其性能表现突出，在自动化度量方面表现强大。

Abstract

automated html/css code generation from screenshots is an important yet challenging problem with broad applications in website development and design. In this paper, we present a novel vision-code transformer approach that leverages an →

automated html/css code generation encoder-decoder architecture vision transformer document image transformer actor-critic fine-tuning

发现论文，激发创造

GIT: 用于视觉和语言的生成图像到文本的变压器

本文设计和训练了一个生成式图像到文本的转换器 ——GIT，以统一图像 / 视频字幕和问答等视觉语言任务。使用简化的体系结构和扩大的预训练数据和模型规模，GIT 在 12 个具有挑战性的基准测试中都取得了新的最佳表现，这些基准测试中有 TextCaps、图像分类和场景文本识别等。

May, 2022

pix2code：从图形用户界面截图生成代码

本研究使用深度学习方法，基于单个输入图像，在三个不同平台（即 iOS、Android 和基于 web 的技术）中以超过 77% 的精度自动生成代码。

May, 2017

GiT: 通向通用视觉 Transformer 的普适语言接口

这篇论文提出了一种简单而有效的框架，名为 GiT，它能够同时适用于各种视觉任务，只需一个简单的 ViT 模型。

Mar, 2024

Design2Code: 前端工程自动化的实现程度如何？

通过综合评估，我们发现 GPT-4V 在将视觉设计转换为代码实现的任务中表现最佳，其生成的网页在视觉外观和内容方面可以替代原始参考网页的 49％，并且在 64％的情况下被认为比原始参考网页更好。

Mar, 2024

统一视觉 Transformer 压缩

本论文提出了一种统一的 ViT 压缩框架，其中使用了修剪、跳跃层和知识蒸馏等三种有效技术，经过在 ImageNet 数据集上的实验验证，我们的方法在保证精度的前提下有效压缩 Vision Transformers，比目前已有的压缩方法表现更优。

Mar, 2022

VISION2UI：从 UI 设计生成代码的带有布局的真实世界数据集

从实际场景中提取和清洗，包含设计愿景和 UI 代码的高质量数据集 VISION2UI 用于细调 Multimodal Large Language Models (MLLMs) 以实现自动化 UI 代码生成。

Apr, 2024

DiT：文档图像 Transformer 的自监督预训练

本文提出了 DiT，一种利用大规模未标记文本图像进行自监督预训练的文档图像变压器模型，成为视觉文档 AI 任务的骨干网络，在文档图像分类、文档布局分析、表格检测以及 OCR 的文本检测等诸多任务中取得了最新的最佳结果。

Mar, 2022

基于 Transformer 的端到端图像压缩和分析

本文提出了一种基于 Transformer 的端到端图像压缩和分析模型，实现云端图像分类应用，并通过两步训练策略解决了率失真精度优化问题。实验结果表明，该模型在图像压缩和分类任务中均具有有效性。

Dec, 2021

视觉编码解码模型用于人工智能辅导

本研究论文介绍了一种创新的 AI 辅导方法，通过整合视觉编码器 - 解码器模型，以 Vision Transformer 作为编码器，GPT-2 作为解码器，实现了对视觉输入和文本交互的无缝集成。与传统实践中使用不同模型进行图像识别和文本辅导的做法不同，我们的集成架构直接处理输入图像，实现与 AI 辅导员的自然问答对话。这种独特的策略简化了模型架构，同时提升了人工智能与人类之间的整体用户体验。我们展示了样本结果以证明该模型的能力。结果强调了该方法作为创建涉及视觉输入的多领域高效 AI 辅导模型的潜力，尤其重要的是，无论选择了哪种视觉编码器或文本解码器，该潜力都是成立的。此外，我们对不同大小的 GPT-2 进行了实验，评估其对 AI 辅导员性能的影响，为我们所提出的方法的可扩展性和多功能性提供了宝贵的见解。

Nov, 2023

训练视觉 Transformer 进行图像检索

本文提出一种基于变换器的图像检索方法，通过采用视觉变换器生成图像描述符并使用度量学习目标进行训练，结合对比损失和微分熵正则化，相比于卷积方法，提高了图像检索性能，特别是对于短向量表示和低分辨率图像。

Feb, 2021