无需训练的位置感知文本到图像合成

Apr, 2023

无需训练的位置感知文本到图像合成

Training-Free Location-Aware Text-to-Image Synthesis

Jiafeng Mao, Xueting Wang

TL;DR本文提出了一种新的交互式图像生成方案，以定位细粒度为目标，评价了生成模型控制位置的能力，并在图像质量和控制能力方面均表现出超过最先进方法的效果。

Abstract

Current large-scale generative models have impressive efficiency in generating high-quality images based on text prompts. However, they lack the ability to precisely control the size and position of objects in the generated image. In this study, we analyze the generative mechanism of t

generative models stable diffusion model interactive generation paradigm object detection-based evaluation metric image quality

发现论文，激发创造

基于文本的图像到图像翻译的即插即用扩散特征

研究使用空间特征和自我关注来实现生成图片结构的微调，并将其用于文本到图像合成中，从而实现图像到图像转换。

Nov, 2022

在任何场景中生成任何物体

我们提出了一种简单高效的数据增强训练策略，通过插入适配器层来引导扩散模型仅专注于对象身份，使得我们的模型具备控制每个生成个性化对象的位置和大小的能力，并提出了区域引导抽样技术来保持生成图像的质量和保真度。

Jun, 2023

利用扩散模型的时空关注力实现高保真度文本到图像合成

本文提出了一种新的文本到图像算法，通过在扩散模型中加入显式的空间 - 时间交叉注意力控制，利用布局预测器和空间注意力控制相结合，实现优化组合权重的方式，从而生成与文本更高保真的图像。

Apr, 2023

通过语义扩散引导使图像合成更加可控

该研究探讨了图像合成模型的细粒度、连续控制，提出了一种新的语义扩散引导统一框架，可以注入预训练的无条件扩散模型的语言或图像指导，并在 FFHQ 和 LSUN 数据集上进行了实验。

Dec, 2021

刷字：通过扩散模型在图像上合成任意场景文本

提出了 Diff-Text，它是一个训练免费的场景文本生成框架，能够以任何语言的文本和场景的文本描述为输入，输出逼真的照片。通过引入局部化的注意力约束和对比度图像级提示，实现了场景文本的准确生成，并在文本识别准确性和前景背景融合的自然度方面优于现有方法。

Dec, 2023

基于关注重心的文本到图像的合成

本研究提出了两个新的损失函数，用于在采样过程中根据给定的布局重新聚焦注意力图，以解决在多个对象、属性和空间组合都涉及到的情况下现有文本到图像综合方法无法精确遵循文本提示的问题，并通过 Large Language Models 合成的布局在 DrawBench 和 HRS 基准测试中进行了全面实验，证明了我们提出的方法可以轻松有效地集成到现有的文本到图像方法中，并始终提高其生成图像与文本提示之间的对齐度。

Jun, 2023

本地条件控制文本到图像扩散模型

本文介绍了一种新的简单而实用的任务设置：局部控制，它通过用户定义的图像条件在特定的局部区域进行控制，其余区域仅通过原始文本提示进行调节。我们提出了一种无需训练的方法，利用去噪过程中噪声潜变量和参数的更新，在交互注意力图中促进非控制区域的概念生成。此外，我们使用特征屏蔽约束解决局部控制区域内外信息差异导致的合成图像质量下降问题。广泛的实验表明，我们的方法可以在局部控制条件下合成出高质量的图像。

Dec, 2023

使用潜在扩散模型进行高保真度的图像合成引导

本文提出了一种新的引导图像合成框架，该框架通过将输出图像建模为受约束优化问题的解决方案来解决领域偏移问题。同时，本文还展示了通过定义基于交叉注意力的输入文本符号和用户笔画之间的对应关系，用户可以在不需要任何条件训练或微调的情况下控制不同绘制区域的语义。

Nov, 2022

FreeControl：无需训练的任意文本到图像扩散模型的空间控制与任意条件

FreeControl 是一种无需训练的可控文本生成方法，支持多种条件、架构和检查点，并在定性和定量实验中展现了卓越性能。

Dec, 2023

将几何控制融入文本 - 图像扩散模型以通过文本提示进行高质量检测数据生成

本文提出 GeoDiffusion，一种简单的框架，可以将各种几何条件灵活地转化为文本提示，为预训练的文本到图像扩散模型赋能高质量检测数据生成，实验证明它在维护更快的训练时间的同时优于先前的 L2I 方法。

Jun, 2023