强化学习微调的视觉 - 编码转换器用于 UI 转码生成
本文设计和训练了一个生成式图像到文本的转换器 ——GIT,以统一图像 / 视频字幕和问答等视觉语言任务。使用简化的体系结构和扩大的预训练数据和模型规模,GIT 在 12 个具有挑战性的基准测试中都取得了新的最佳表现,这些基准测试中有 TextCaps、图像分类和场景文本识别等。
May, 2022
本研究使用深度学习方法,基于单个输入图像,在三个不同平台(即 iOS、Android 和基于 web 的技术)中以超过 77% 的精度自动生成代码。
May, 2017
通过综合评估,我们发现 GPT-4V 在将视觉设计转换为代码实现的任务中表现最佳,其生成的网页在视觉外观和内容方面可以替代原始参考网页的 49%,并且在 64%的情况下被认为比原始参考网页更好。
Mar, 2024
本论文提出了一种统一的 ViT 压缩框架,其中使用了修剪、跳跃层和知识蒸馏等三种有效技术,经过在 ImageNet 数据集上的实验验证,我们的方法在保证精度的前提下有效压缩 Vision Transformers,比目前已有的压缩方法表现更优。
Mar, 2022
从实际场景中提取和清洗,包含设计愿景和 UI 代码的高质量数据集 VISION2UI 用于细调 Multimodal Large Language Models (MLLMs) 以实现自动化 UI 代码生成。
Apr, 2024
本文提出了 DiT,一种利用大规模未标记文本图像进行自监督预训练的文档图像变压器模型,成为视觉文档 AI 任务的骨干网络,在文档图像分类、文档布局分析、表格检测以及 OCR 的文本检测等诸多任务中取得了最新的最佳结果。
Mar, 2022
本文提出了一种基于 Transformer 的端到端图像压缩和分析模型,实现云端图像分类应用,并通过两步训练策略解决了率失真精度优化问题。实验结果表明,该模型在图像压缩和分类任务中均具有有效性。
Dec, 2021
本研究论文介绍了一种创新的 AI 辅导方法,通过整合视觉编码器 - 解码器模型,以 Vision Transformer 作为编码器,GPT-2 作为解码器,实现了对视觉输入和文本交互的无缝集成。与传统实践中使用不同模型进行图像识别和文本辅导的做法不同,我们的集成架构直接处理输入图像,实现与 AI 辅导员的自然问答对话。这种独特的策略简化了模型架构,同时提升了人工智能与人类之间的整体用户体验。我们展示了样本结果以证明该模型的能力。结果强调了该方法作为创建涉及视觉输入的多领域高效 AI 辅导模型的潜力,尤其重要的是,无论选择了哪种视觉编码器或文本解码器,该潜力都是成立的。此外,我们对不同大小的 GPT-2 进行了实验,评估其对 AI 辅导员性能的影响,为我们所提出的方法的可扩展性和多功能性提供了宝贵的见解。
Nov, 2023
本文提出一种基于变换器的图像检索方法,通过采用视觉变换器生成图像描述符并使用度量学习目标进行训练,结合对比损失和微分熵正则化,相比于卷积方法,提高了图像检索性能,特别是对于短向量表示和低分辨率图像。
Feb, 2021