LayoutNUWA: 揭示大型语言模型的隐藏布局技能
本研究提出了一种基于 LLM / MLLM 的文档理解方法 LayoutLLM,核心是一种专门设计的布局指令调整策略,通过布局感知的预训练和布局感知的监督微调来提高对文档布局的理解和利用,同时使用 LayoutCoT 模块来生成准确答案并提升文档理解的性能。
Apr, 2024
最近大型语言模型的进展激发了研究人员和行业专业人员的兴趣,特别是在与移动用户界面相关的任务中的应用。本研究探讨了使用大型语言模型进行用户界面布局生成的方法,并引入了 UI 语法的概念,以更有效地指导生成能力,并提高过程的可解释性和可控性。通过与 GPT-4 进行的初步实验表明,大型语言模型通过上下文学习具有产生高质量用户界面的有希望的能力。此外,我们的初步比较研究显示了基于语法的方法在改善特定方面的生成结果质量方面的潜力。
Oct, 2023
我们研究了自动生成图形布局的统一框架,利用多模态大型语言模型(MLLM)适应不同的设计任务,并进行了大量实验验证其在公开多模态布局生成基准上的卓越性能,同时提出了两个新数据集,进一步验证了该模型在现实生活中的实用性。
Jun, 2024
本文提出了 LayoutLLM,一种更灵活的文档分析方法,用于理解图像化文档。通过利用现有研究在文档图像理解和大规模语言模型的优势,通过与多模态指令数据集进行微调,提出的模型在单个模型中执行对文档图像的理解,并通过实验证明在各种文档分析任务中改进了基线模型。
Mar, 2024
通过使用自动生成的合成数据集和自动化工具,我们改进了现有的大型语言模型(LLMs),使其能够生成高质量的用户界面(UI)代码,并通过与其他基准模型的比较证明了我们的方法的有效性。
Jun, 2024
我们提出了 GraphLayoutLM 模型,它利用布局结构图的建模将文档布局知识注入模型,使得模型能够理解文本元素的空间排列,以提高文档的理解能力,并在 FUNSD、XFUND 和 CORD 等基准测试中取得了最先进的结果。
Aug, 2023
利用大型语言模型作为布局生成器,改进了文本到图像生成模型,通过生成合理的对象布局来增强图像的构图和空间准确性,从而提高了图像质量。
Nov, 2023
PosterLlama 是一种生成视觉上连贯且文本相关的布局的网络,通过重新格式化布局元素为 HTML 代码并利用语言模型中嵌入的丰富设计知识来进行设计,通过独特的基于深度的海报增强策略提高模型的鲁棒性。在多个基准测试中,PosterLlama 在生成真实且内容感知的布局方面优于现有方法,支持无条件布局生成、元素条件布局生成、布局完成等条件,并作为一种高度灵活的用户操作工具。
Apr, 2024
该研究提出了一种基于大型语言模型(LLMs)的 LI3D 系统,它集成了 LLMs 作为 3D 布局解释器到现有的布局生成模型中,使用户能够灵活且交互式地生成 3D 场景并且验证其有效性和性能。
May, 2023
本文提出了一种基于图像元素的深度生成模型 CGL-GAN,并设计了域对齐模块 DAM 来缩小训练和测试输入之间的差距,进而生成符合美感直觉的高质量图形布局。
Apr, 2022