生成AI中的文本与图像扩散模型: 一项调查

Mar, 2023

生成AI中的文本与图像扩散模型: 一项调查

Text-to-image Diffusion Model in Generative AI: A Survey

Chenshuang Zhang, Chaoning Zhang, Mengchun Zhang, In So Kweon

TL;DR本文综述了文本到图像扩散模型的发展现状及其在生成任务中的应用；此外，介绍了文本条件下图像合成、文本引导的创意生成和图像编辑，并探讨了当前的挑战和未来方向。

Abstract

This survey reviews text-to-image diffusion models in the context that diffusion models have emerged to be popular for a wide range of

发现论文，激发创造

eDiff-I：使用专家去噪模型集合的文本到图像扩散模型

该研究提出了一种基于扩散的生成模型，通过设计针对迭代生成过程的特殊模型，实现了更好的文本对齐，利用不同嵌入技术对模型进行调整，实现对参考图像风格进行自适应转换，并展示了一种“文字涂鸦”的技术，可帮助用户控制所需的图像输出。

Nov, 2022

基于文本的图像到图像翻译的即插即用扩散特征

研究使用空间特征和自我关注来实现生成图片结构的微调，并将其用于文本到图像合成中，从而实现图像到图像转换。

Nov, 2022

RenAIssance: 大型模型时代的AI文字到图像生成调查

文本到图像生成使用神经网络和扩展模型规模的创新模型架构与预测增强技术相结合的方法，提供了几种不同的方法并对其进行了详细比较和评价，为未来的工作提供了改进的可能路径。

Sep, 2023

寻找咒语：通过提示工程实现精确的文本到图像扩散合成

通过prompt学习，我们提出了一种学习扩散模型适当文本描述的框架，通过利用预训练扩散模型导出的质量指导和语义指导，我们的方法可以有效地学习提示，从而提高输入文本和生成图像之间的匹配。通过广泛的实验和分析，验证了所提方法的有效性。

Jan, 2024

DiffusionGPT: 基于LLM的文本到图像生成系统

DiffusionGPT结合了扩散模型、文本到图像系统和领域特定树，提供了一个统一的生成系统，能够适应各种类型的提示并集成领域专家模型，推动了多领域图像合成的边界。

Jan, 2024

视觉中的生成人工智能：模型、度量和应用的综述

这篇综述论文提供了关于生成式AI扩散和传统模型的全面概述，主要介绍了它们的基本技术、在不同领域的应用以及所面临的挑战，旨在为研究人员和从业者提供全面了解，并激发未来在这个令人兴奋的人工智能领域的创新。

Feb, 2024

基于扩散模型的图像编辑：一项综述

调查论文对使用扩散模型进行图像编辑的现有方法进行了全面的概述，包括理论和实践方面，并从多个角度对这些作品进行了彻底分析和分类，介绍了学习策略、用户输入条件以及可以实现的特定编辑任务的组合。此外，对图像修复和扩展进行了特别关注，并探讨了早期的传统上下文驱动方法和当前的多模态条件方法，全面分析了它们的方法论。最后，讨论当前的限制并展望未来的研究方向。

Feb, 2024

可控生成的文本-图像扩散模型：一份综述

在控制生成方面与文本到图像扩散模型的研究领域，通过调查文献并总结了控制性生成，包括基本概念和实践研究。

Mar, 2024

基于布局到图像合成的无需训练的复合场景生成

通过改进的自动分布条件并利用布局信息指导扩散过程，该研究提出了一种新颖的无需训练的方法，能够生成具有增强保真度和复杂性的内容丰富的图像。

Jul, 2024

无训练的草图引导扩散模型与潜在优化

本研究解决了现有文本到图像生成模型在用户对生成结果的精确控制方面的挑战。提出了一种新颖的无训练管道，利用草图作为附加条件，通过潜在优化方法提高生成图像与草图结构的准确性和保真度，从而增强用户在内容创作中的控制和定制选项。该方法有望在现实世界内容创作中提供更高的灵活性和质量。

Aug, 2024