软化潜向下的渐进文本到图像扩散

Sep, 2023

软化潜向下的渐进文本到图像扩散

Progressive Text-to-Image Diffusion with Soft Latent Direction

YuTeng Ye, Jiale Cai, Hang Zhou, Guanwen Li, Youjia Zhang...

TL;DR通过创新性的渐进综合和编辑操作，该论文引入了一种系统地将实体合并到目标图像中，并确保它们在每个顺序步骤中遵守空间和关系约束的方法。

Abstract

In spite of the rapidly evolving landscape of text-to-image generation, the synthesis and manipulation of multiple entities while adhering to specific →

text-to-image generation entities relational constraints progressive synthesis large language model (llm)

发现论文，激发创造

基于文本的图像到图像翻译的即插即用扩散特征

研究使用空间特征和自我关注来实现生成图片结构的微调，并将其用于文本到图像合成中，从而实现图像到图像转换。

Nov, 2022

混合潜在扩散

本研究介绍了一种基于文本的图像编辑方法，利用最新的扩散模型对一些基于文本主题的地方图像进行编辑，通过结合扩散模型的速度和 Blended Diffusion，提高了编辑的效率，并通过优化方法来解决扩散模型无法完美重建图像的问题，实现了比当前方法更高的精度和速度

Jun, 2022

自校正的 LLM 控制扩散模型

使用 Self-correcting LLM-controlled Diffusion (SLD) 框架，该研究提出了一种迭代闭环过程，能够根据输入的提示生成图像、评估其与提示的对齐性，并纠正生成图像中的不准确性，从而提高文本到图像生成的正确性。该研究还发现，通过调整 LLM 的指令，SLD 可以执行图像编辑任务，弥合文本到图像生成与图像编辑流程之间的差距。

Nov, 2023

LLM-grounded Diffusion: 借助大型语言模型增强文本到图像扩散模型中的提示理解

该论文介绍了一种使用预训练大型语言模型对扩散模型进行增强推理能力的方法，包括两个阶段：第一阶段使用大型语言模型生成场景布局；第二阶段使用一个新的控制器，来生成与布局条件相符的图像。实验结果表明，该方法能更准确地生成需要语言和空间推理的图像。

May, 2023

寻找咒语：通过提示工程实现精确的文本到图像扩散合成

通过 prompt 学习，我们提出了一种学习扩散模型适当文本描述的框架，通过利用预训练扩散模型导出的质量指导和语义指导，我们的方法可以有效地学习提示，从而提高输入文本和生成图像之间的匹配。通过广泛的实验和分析，验证了所提方法的有效性。

Jan, 2024

使用潜在扩散模型进行高保真度的图像合成引导

本文提出了一种新的引导图像合成框架，该框架通过将输出图像建模为受约束优化问题的解决方案来解决领域偏移问题。同时，本文还展示了通过定义基于交叉注意力的输入文本符号和用户笔画之间的对应关系，用户可以在不需要任何条件训练或微调的情况下控制不同绘制区域的语义。

Nov, 2022

LLM 蓝图：通过复杂和详细的提示实现文本生成图像

利用大型语言模型 (LLM) 从文本提示中提取关键组件，包括前景对象的边界框坐标、各个对象的详细文本描述和简洁的背景上下文。这些组件构成了布局到图像生成模型的基础，该模型通过两个阶段的操作实现，初步生成全局场景后，使用迭代细化方案对内容进行评估和修正，以确保与文本描述的一致性，从而在生成复杂的场景时展现出比传统扩散模型更好的召回率，经由用户研究进一步验证了我们的方法在从错综复杂的文本输入中生成连贯详细场景方面的功效。

Oct, 2023

掌握文本到图像扩散：多模态 LLM 的重新字幕、规划和生成

提出一种全新的基于训练自由的文本到图像生成 / 编辑框架 RPG，该框架利用多模态 LLMs 的强大联想推理能力，提高了文本到图像扩散模型的组合性，并在多类别对象组合和文本 - 图像语义对齐方面优于 DALL-E 3 和 SDXL 等最先进的文本到图像扩散模型。

Jan, 2024

刷字：通过扩散模型在图像上合成任意场景文本

提出了 Diff-Text，它是一个训练免费的场景文本生成框架，能够以任何语言的文本和场景的文本描述为输入，输出逼真的照片。通过引入局部化的注意力约束和对比度图像级提示，实现了场景文本的准确生成，并在文本识别准确性和前景背景融合的自然度方面优于现有方法。

Dec, 2023

利用合成标题改进图像文本生成

通过使用 SDXL，我们提出一种低成本的微调技术来改善不同情况下文本生成的准确性，并通过将随机字符添加到原始数据集中来提高模型在生成良好形式视觉文本方面的性能。

Jun, 2024