LoCo：局部受限无训练布局到图像合成

Nov, 2023

LoCo：局部受限无训练布局到图像合成

LoCo: Locally Constrained Training-Free Layout-to-Image Synthesis

Peiang Zhao, Han Li, Ruiyang Jin, S. Kevin Zhou

TL;DR本文中，我们提出了一种名为 LoCo 的无需训练的布局到图像合成方法，能够通过引入局部化注意约束和填充令牌约束，对个体对象进行精确定位并防止合成对象的不良融合，并成功地集成到现有的文本到图像和布局到图像模型中，在多个基准测试中定性和定量地超越了既有的最先进的无需训练的布局到图像方法，展示了我们方法的优越性。

Abstract

Recent text-to-image diffusion models have reached an unprecedented level in generating high-quality images. However, their exclusive reliance on textual prompts often falls short in accurately conveying fine-grained spatial compositions. In this paper, we propose →

text-to-image diffusion models fine-grained spatial compositions loco layout-to-image synthesis training-free approach

发现论文，激发创造

无需训练的位置感知文本到图像合成

本文提出了一种新的交互式图像生成方案，以定位细粒度为目标，评价了生成模型控制位置的能力，并在图像质量和控制能力方面均表现出超过最先进方法的效果。

Apr, 2023

LocTex: 从本地文本监督中学习数据高效视觉表征

本文提出了一种名为 LocTex 的计算机视觉方法，它利用了低成本的本地化文本标注和鼠标轨迹，通过对图像和标题的对比预训练和监督跨模态关注图，从而提供粗略的本地化信号，从而减少标注数据的数量。它学习到的视觉特征可以捕捉自由形式的标题的丰富语义和鼠标轨迹的准确本地化，可以转移到各种下游视觉任务中，并且比 ImageNet 的监督预训练方法可以将预训练数据集的大小缩小 10 倍或目标数据集的大小缩小 2 倍，同时在 COCO 实例分割上实现可比较甚至更高的性能。在拥有相同数量的注释的情况下，LocTex 在 PASCAL VOC 图像分类任务上比以前最先进的 “视觉 + 语言” 预训练方法提高了约 4% 的准确性。

Aug, 2021

LTOS: 布局可控的文本对象合成通过自适应交叉关注融合

通过将文本渲染和布局到图像生成任务融合为一个任务，本文提出了一种布局可控的文本 - 对象综合 (LTOS) 任务，旨在根据预定义的对象布局和文本内容合成具有对象和视觉文本的图像。

Apr, 2024

使用 ControlNet 和交叉注意控制实现基于局部描述的布局到图像生成

通过修改跨注意力矩阵，在保持图像质量的同时改进控制能力，本研究以 ControlNet 为例，研究了几种现有的跨注意力控制方法的局限性，并提出了一种新的跨注意力操纵方法，通过定位描述来实现对生成图像的精细控制。

Feb, 2024

推导出您的布局：从大型语言模型中归纳出用于文本到图像合成的布局模式

利用大型语言模型作为布局生成器，改进了文本到图像生成模型，通过生成合理的对象布局来增强图像的构图和空间准确性，从而提高了图像质量。

Nov, 2023

LayoutLLM-T2I: 从 LLM 中引导布局为文本到图像生成

本研究提出了一种从文本提示中合成与之语义对齐的高保真度图像的方法，采用了粗到细的范式来实现布局规划和图像生成，并通过粒度不同的目标交互扩散方法以优于现有方法的方式生成布局和图像。

Aug, 2023

本地条件控制文本到图像扩散模型

本文介绍了一种新的简单而实用的任务设置：局部控制，它通过用户定义的图像条件在特定的局部区域进行控制，其余区域仅通过原始文本提示进行调节。我们提出了一种无需训练的方法，利用去噪过程中噪声潜变量和参数的更新，在交互注意力图中促进非控制区域的概念生成。此外，我们使用特征屏蔽约束解决局部控制区域内外信息差异导致的合成图像质量下降问题。广泛的实验表明，我们的方法可以在局部控制条件下合成出高质量的图像。

Dec, 2023

层次化文本图像合成的语义布局推断

本文提出一种新的基于语义布局的文本到图像的分层方法，通过语义布局生成器和图像生成器将生成过程分解为多个步骤完成，能够提高图像质量和与输入文本的语义对齐性。

Jan, 2018

基于交叉注意力引导的无需训练的布局控制

通过提示文本控制生成的图像在空间布局方面存在问题，因此我们提出了一种名为布局引导技术的新方法，该方法可以改进模型的交叉注意层，以实现所需的重建方向，并成功进行了定量和定性的实验验证与扩展。

Apr, 2023

LocInv: 文本指导图像编辑中的定位感知反转

基于 T2I 扩散模型，本研究提出了一种局部感知反演（LocInv）方法，通过利用分割地图或边界框作为额外的定位先验，精确修正扩散过程中的交互关注图，使其与文本提示中的正确名词和形容词单词紧密对齐，从而实现对特定对象的细粒度图像编辑，并防止对其他区域产生不希望的改变。该方法在 COCO 数据集的子集上经过广泛评估，定量和定性地都取得了优秀的结果。

May, 2024