带有检索增强扩散模型的文本引导艺术图片生成

Jul, 2022

带有检索增强扩散模型的文本引导艺术图片生成

Text-Guided Synthesis of Artistic Images with Retrieval-Augmented Diffusion Models

Robin Rombach, Andreas Blattmann, Björn Ommer

TL;DR通过检索增强的扩散模型，我们提出了一种替代性方法，改进了生成图像合成技术，优于基于文本提示的视觉样式规定。

Abstract

Novel architectures have recently improved generative image synthesis leading to excellent visual quality in various tasks. Of particular note is the field of ``ai-art'', which has seen unprecedented growth with

generative image synthesis ai-art clip prompt-engineering retrieval-augmented diffusion models

发现论文，激发创造

寻找咒语：通过提示工程实现精确的文本到图像扩散合成

通过 prompt 学习，我们提出了一种学习扩散模型适当文本描述的框架，通过利用预训练扩散模型导出的质量指导和语义指导，我们的方法可以有效地学习提示，从而提高输入文本和生成图像之间的匹配。通过广泛的实验和分析，验证了所提方法的有效性。

Jan, 2024

BeautifulPrompt: 文本到图像合成的自动提示工程化

我们提出了 BeautifulPrompt，这是一个深度生成模型，可以从非常简单的原始描述中生成高质量的提示，从而使基于扩散模型生成更美丽的图像。我们使用视觉 AI 反馈的强化学习技术来进一步优化模型，以提高生成的提示和图像的质量，并将 BeautifulPrompt 集成到云原生 AI 平台，提供更好的云端文本到图像生成服务。

Nov, 2023

DP-RDM：无需微调将扩散模型应用于私有领域

发展首个具有可证明的隐私保证并能生成高质量图像样本的差分隐私检索增强生成算法，通过在文本提示中引入从私有检索数据集检索的样本，无需在检索数据集上微调，利用先进的生成模型生成高质量图像样本，并提供隐私保证。

Mar, 2024

通过语义扩散引导使图像合成更加可控

该研究探讨了图像合成模型的细粒度、连续控制，提出了一种新的语义扩散引导统一框架，可以注入预训练的无条件扩散模型的语言或图像指导，并在 FFHQ 和 LSUN 数据集上进行了实验。

Dec, 2021

使用丰富提示进行零样本图像转换的扩散模型再生学习

本文提出了一种 ReDiffuser 图片修复模型，该模型使用自动生成的描述来完成图片编辑，利用再生学习和交叉注意力向导实现图片对形状的一致性保留，并引入一种协作更新策略，提高图片修复的质量和一致性。实验结果表明，该方法在真实和合成图片编辑方面优于现有方法。

May, 2023

多模态引导扩散：多样的数字艺术合成

本研究提出了一种多模态引导的数字艺术生成方法，即 MGAD 模型，该方法利用多模态提示作为引导，控制无分类器扩散模型，并使用对比语言 - 图像预训练 (CLIP) 模型统一文本和图像模态进行生成，实验结果表明，此方法在产生数字艺术方面有效。

Sep, 2022

GLIDE: 基于文本引导扩散模型的逼真图像生成和编辑

本研究探讨了扩散模型在文本条件下生成图像的问题，并比较了不同的指导策略：CLIP 指导和无分类器指导。结果发现对于照片逼真度和字幕相似性，后者更受人类评估人员的青睐，还可以进行图像修复。

Dec, 2021

扩增模型与检索中的数据增强视角

本文系统评估了扩散模型生成图像的现有方法，并研究了新的扩展方式以评估它们对数据增强的益处。作者发现，将扩散模型个性化到目标数据的方法优于简单的提示策略，但使用扩散模型的训练数据，通过简单的最近邻检索程序，直接提高下游性能。此项研究揭示了扩散模型在数据增强方面的局限性，同时也突显了其在生成新训练数据方面的潜力，以提高在简单的下游视觉任务中的性能。

Apr, 2023

文本到图像扩散模型的语义引导调整

最近的文本到图像 (T2I) 扩散模型的进展在生成具有零样本泛化能力的高质量图像方面取得了令人印象深刻的成功。然而，当前的模型在紧密遵循提示语义方面存在困难，通常会误代或忽视特定属性。为了解决这个问题，我们提出了一种简单的、无需训练的方法，在推理过程中调节扩散模型的引导方向。我们首先将提示语义分解为一组概念，并监控与每个概念相关的引导轨迹。我们的关键观察是，模型在遵循提示语义方面的偏离与引导从一个或多个概念偏离的差异高度相关。基于这一观察，我们设计了一种技术，将引导方向引导至模型偏离的任何概念。广泛的实验验证了我们的方法可以改善扩散模型对提示的语义对齐。项目页面可在此链接上找到: this https URL

Dec, 2023

艺术生成的扩散式创意探索

利用最新的扩散模型生成创意艺术，通过将文本文档与粗略草图作为辅助信息进行模型训练，取得了令人满意的实验结果。

Jul, 2023