LayoutNUWA: 揭示大型语言模型的隐藏布局技能

Sep, 2023

LayoutNUWA: 揭示大型语言模型的隐藏布局技能

LayoutNUWA: Revealing the Hidden Layout Expertise of Large Language Models

Zecheng Tang, Chenfei Wu, Juntao Li, Nan Duan

TL;DR借助大型语言模型，本文提出了 LayoutNUWA 模型，将布局生成任务作为代码生成任务来增强语义信息和利用隐藏的布局专长，达到显著的最新性能，并展示了 LayoutNUWA 的强大能力。

Abstract

graphic layout generation, a growing research field, plays a significant role in user engagement and information perception. Existing methods primarily treat layout generation as a numerical optimization task, focusing on quantitative aspects while overlooking the →

graphic layout generation layoutnuwa code generation task semantic information large language models

发现论文，激发创造

LayoutLLM：利用大型语言模型对版面指令进行调优以提高文档理解能力

本研究提出了一种基于 LLM / MLLM 的文档理解方法 LayoutLLM，核心是一种专门设计的布局指令调整策略，通过布局感知的预训练和布局感知的监督微调来提高对文档布局的理解和利用，同时使用 LayoutCoT 模块来生成准确答案并提升文档理解的性能。

Apr, 2024

基于 UI 语法引导的 LLMs 的 UI 布局生成

最近大型语言模型的进展激发了研究人员和行业专业人员的兴趣，特别是在与移动用户界面相关的任务中的应用。本研究探讨了使用大型语言模型进行用户界面布局生成的方法，并引入了 UI 语法的概念，以更有效地指导生成能力，并提高过程的可解释性和可控性。通过与 GPT-4 进行的初步实验表明，大型语言模型通过上下文学习具有产生高质量用户界面的有希望的能力。此外，我们的初步比较研究显示了基于语法的方法在改善特定方面的生成结果质量方面的潜力。

Oct, 2023

PosterLLaVa: 基于 LLM 的统一多模式布局生成器构建

我们研究了自动生成图形布局的统一框架，利用多模态大型语言模型（MLLM）适应不同的设计任务，并进行了大量实验验证其在公开多模态布局生成基准上的卓越性能，同时提出了两个新数据集，进一步验证了该模型在现实生活中的实用性。

Jun, 2024

LayoutLLM：针对视觉丰富文档理解的大语言模型指令调整

本文提出了 LayoutLLM，一种更灵活的文档分析方法，用于理解图像化文档。通过利用现有研究在文档图像理解和大规模语言模型的优势，通过与多模态指令数据集进行微调，提出的模型在单个模型中执行对文档图像的理解，并通过实验证明在各种文档分析任务中改进了基线模型。

Mar, 2024

UICoder: 通过自动反馈对大型语言模型进行微调以生成用户界面代码

通过使用自动生成的合成数据集和自动化工具，我们改进了现有的大型语言模型（LLMs），使其能够生成高质量的用户界面（UI）代码，并通过与其他基准模型的比较证明了我们的方法的有效性。

Jun, 2024

通过布局结构建模增强视觉丰富文档的理解

我们提出了 GraphLayoutLM 模型，它利用布局结构图的建模将文档布局知识注入模型，使得模型能够理解文本元素的空间排列，以提高文档的理解能力，并在 FUNSD、XFUND 和 CORD 等基准测试中取得了最先进的结果。

Aug, 2023

推导出您的布局：从大型语言模型中归纳出用于文本到图像合成的布局模式

利用大型语言模型作为布局生成器，改进了文本到图像生成模型，通过生成合理的对象布局来增强图像的构图和空间准确性，从而提高了图像质量。

Nov, 2023

PosterLlama：连接语言模型的设计能力与内容感知布局生成

PosterLlama 是一种生成视觉上连贯且文本相关的布局的网络，通过重新格式化布局元素为 HTML 代码并利用语言模型中嵌入的丰富设计知识来进行设计，通过独特的基于深度的海报增强策略提高模型的鲁棒性。在多个基准测试中，PosterLlama 在生成真实且内容感知的布局方面优于现有方法，支持无条件布局生成、元素条件布局生成、布局完成等条件，并作为一种高度灵活的用户操作工具。

Apr, 2024

面向语言引导的交互式 3D 生成：LLMs 作为布局解释器与生成反馈

该研究提出了一种基于大型语言模型（LLMs）的 LI3D 系统，它集成了 LLMs 作为 3D 布局解释器到现有的布局生成模型中，使用户能够灵活且交互式地生成 3D 场景并且验证其有效性和性能。

May, 2023

面向视觉文本呈现设计的组合感知图形布局生成对抗网络

本文提出了一种基于图像元素的深度生成模型 CGL-GAN，并设计了域对齐模块 DAM 来缩小训练和测试输入之间的差距，进而生成符合美感直觉的高质量图形布局。

Apr, 2022