Design Booster：一种注重空间布局保留的文本引导扩散模型用于图像翻译

Feb, 2023

Design Booster：一种注重空间布局保留的文本引导扩散模型用于图像翻译

Design Booster: A Text-Guided Diffusion Model for Image Translation with Spatial Layout Preservation

Shiqi Sun, Shancheng Fang, Qian He, Wei Liu

TL;DR提出了一种通过学习感知图片布局和感知文本共同来进行灵活的图片翻译的新方法，该方法在实验中具有最佳的风格和语义图片翻译效果，并且需要的时间最短。

Abstract

diffusion models are able to generate photorealistic images in arbitrary scenes. However, when applying diffusion models to image translation

diffusion models image translation layout-aware image condition text condition co-encoding

发现论文，激发创造

基于文本的图像到图像翻译的即插即用扩散特征

研究使用空间特征和自我关注来实现生成图片结构的微调，并将其用于文本到图像合成中，从而实现图像到图像转换。

Nov, 2022

利用有损扩散模型增强图像布局控制

扩散模型为一种强大的生成模型，能够从纯噪声中生成高质量的图像。条件扩散模型通过简单的文本提示能够指定所需图像的内容，然而，仅仅基于文本提示无法对最终图像的构成和布局进行细致的控制，而这取决于初始噪声分布。本文探讨了两种改进方法，并演示了当这两种方法结合使用时可以获得更好的性能。

May, 2024

刷字：通过扩散模型在图像上合成任意场景文本

提出了 Diff-Text，它是一个训练免费的场景文本生成框架，能够以任何语言的文本和场景的文本描述为输入，输出逼真的照片。通过引入局部化的注意力约束和对比度图像级提示，实现了场景文本的准确生成，并在文本识别准确性和前景背景融合的自然度方面优于现有方法。

Dec, 2023

LLM-grounded Diffusion: 借助大型语言模型增强文本到图像扩散模型中的提示理解

该论文介绍了一种使用预训练大型语言模型对扩散模型进行增强推理能力的方法，包括两个阶段：第一阶段使用大型语言模型生成场景布局；第二阶段使用一个新的控制器，来生成与布局条件相符的图像。实验结果表明，该方法能更准确地生成需要语言和空间推理的图像。

May, 2023

基于无条件扩散模型的实时文本驱动图像操作

该论文研究了基于扩散模型的无条件文本驱动图像编辑方法的效率，并开发了一种新算法，可以快速学习和应用图像操作，从而提高实现应用的潜力。

Apr, 2023

推导出您的布局：从大型语言模型中归纳出用于文本到图像合成的布局模式

利用大型语言模型作为布局生成器，改进了文本到图像生成模型，通过生成合理的对象布局来增强图像的构图和空间准确性，从而提高了图像质量。

Nov, 2023

用于文本到图像扩散模型的零样本空间布局调节

使用文本生成图像的方法已显著提高了生成图像建模的状态，通过结合自然语言界面和空间控制，在本文中，我们考虑了与图像画布上特定位置对象相关的文本生成图像的问题，并提出了 ZestGuide，这是一种零 - shot 分割指导方法，可插入预先训练的文本到图像扩散模型中，我们的实验结果表明，在精准对齐所需的输入分割的情况下，与使用相应分割进行训练的组件相比，提高了图像质量，而在 COCO 数据集上，我们的结果比 Paint with Words 更好。

Jun, 2023

寻找咒语：通过提示工程实现精确的文本到图像扩散合成

通过 prompt 学习，我们提出了一种学习扩散模型适当文本描述的框架，通过利用预训练扩散模型导出的质量指导和语义指导，我们的方法可以有效地学习提示，从而提高输入文本和生成图像之间的匹配。通过广泛的实验和分析，验证了所提方法的有效性。

Jan, 2024

使用扩散模型对单张图像进行连续布局编辑

提出了第一个框架，用于保留单个图像的视觉属性并编辑其布局，并通过文本反演和优化方法实现多对象特征的分离和布局控制，从而优于其他支持此任务的基线。

Jun, 2023

基于扩散的图像翻译：使用解缕分离的风格和内容表征

本文提出了一种基于扩散的非监督图像转换方法，使用分离的风格和内容表征，并使用 ViT 模型中的中间键提取多头自注意层作为内容保存损失，并匹配文本驱动风格转移的 [CLS] 分类令牌，同时使用额外的 CLIP 损失，实验结果表明，该方法在文本引导和图像引导的转换任务中优于现有的基准模型。

Sep, 2022