BLT: 双向布局变换器用于可控布局生成
通过介绍一种名为 DLT 的联合离散 - 连续扩散模型,该模型是一种基于 Transformer 的模型,它具有灵活的条件机制,能够根据给定的所有布局组件类别、位置和尺寸的子集进行条件限制,在各种布局生成数据集上优于现有的生成模型。
Mar, 2023
LayoutBERT 提出了一种基于自监督掩蔽语言模型目标和双向多头自注意力的自动图像叠加技术,主要用于解决自动选择对象并在图像中正确放置的难题,并在 COCO、PublayNet 等数据集上取得了较好表现,同时还提供了一个包含 580 万个包括布局注释的图像数据集。
Apr, 2022
本论文提出了一种新的框架 LayoutTransformer,可以通过自注意力学习布局元素之间的上下文关系,并在给定领域中生成新的布局,并能够在多个不同数据领域中表现出色。
Jun, 2020
我们提出了一种简单而有效的语言无关布局变换器 LiLT,可在单个语言的结构化文档上进行预训练,然后使用相应的现成单 / 多语言预训练文本模型对其他语言进行直接微调,实验结果表明 LiLT 在八种语言上均能够取得竞争性甚至卓越的性能,从而使得能够从文档布局结构的预训练中获得语言无关的益处。
Feb, 2022
该研究探讨了扩散模型在条件布局生成中的潜力,并提出了基于 Transformer 的布局扩散模型 (LayoutDM),该模型能够产生高质量、具有样本多样性、保真分布覆盖和稳定训练的图形设计布局。
May, 2023
通过引入 Box-it-to-Bind-it (B2B) 模块来改进文本到图像扩散模型中的空间控制和语义准确性,针对文本到图像中的关键挑战(灾难性忽视、属性绑定和布局指导),通过两个主要步骤:目标生成,调整潜在编码以保证对象生成并将其定向到指定的边界框;属性绑定,确保生成的对象符合提示中指定的属性。B2B 模块作为现有文本到图像模型的兼容插件,显著提高了模型性能。在 CompBench 和 TIFA 评分基准上对该技术进行评估,与现有方法相比,取得了显著的性能提升。源代码将在该网址公开提供。
Feb, 2024
提出了 Big Little Decoder (BiLD) 框架来提高文本生成的推理效率和延迟,通过两个不同大小的模型协同生成文本。在各种文本生成情景下应用 BiLD,如机器翻译、摘要生成和语言建模,在 NVIDIA Titan Xp GPU 上实现高达 2.38 倍的加速且不对性能造成显著的损失。
Feb, 2023
本文提出了一种基于 Transformer 框架的生成布局模型,可以灵活地融合设计语义,支持用户隐式或显式地指定元素排列约束,并展示了该模型在单模型下可以生成真实的布局。
Aug, 2021
本文介绍了 TILT 神经网络架构,该架构同时学习布局信息、视觉特征和文本语义的自然语言理解方式。与以往的方法不同,我们依赖于一个能够统一涉及自然语言的各种问题的解码器。该架构的核心是一个预训练的编码器 - 解码器 Transformer,其中布局表示为注意力偏差,并与上下文化的视觉信息相结合。我们的新方法在从文档中提取信息并回答需要布局理解的问题(如 DocVQA、CORD、SROIE)方面取得了最先进的结果。同时,我们通过采用端到端模型简化了该过程。
Feb, 2021
本文介绍了一种名为 RALF 的模型,它通过检索相似的布局示例来提高内容感知图形布局的生成质量,并成功地在不受限制和受限制的环境中生成高质量的布局。
Nov, 2023