扩散模型中的提示工程研究

Nov, 2022

Investigating Prompt Engineering in Diffusion Models

Sam Witteveen, Martin Andrews

TL;DR本论文提出了使用文本转图片模型（比如 DALL-E 2、Imagen、Mid Journey 和 Stable Diffusion）时遇到的一个问题：如何选择正确的提示词以达到预期的艺术输出效果。作者提出了一种衡量提示词效果的技术，并给出了选择提示词以实现预期效果的指导（见附录）。

Abstract

With the spread of the use of text2img diffusion models such as DALL-E 2, Imagen, Mid Journey and Stable Diffusion, one challenge that artists face is selecting the right →

text2img diffusion models prompts artistic output word effects

发现论文，激发创造

寻找咒语：通过提示工程实现精确的文本到图像扩散合成

通过 prompt 学习，我们提出了一种学习扩散模型适当文本描述的框架，通过利用预训练扩散模型导出的质量指导和语义指导，我们的方法可以有效地学习提示，从而提高输入文本和生成图像之间的匹配。通过广泛的实验和分析，验证了所提方法的有效性。

Jan, 2024

文本到图像模型的最佳提示及其发现方法

本研究使用基因算法，结合人类反馈，学习组合最有用的提示关键字，以改善使用描述生成艺术图像的美感。

Sep, 2022

稳定扩散提示的嵌入操纵

我们提出并分析了一种直接改变提示嵌入而非提示文本的方法，将生成的文本到图像模型视为一个连续函数，并在图像空间和提示嵌入空间之间传递梯度，通过解决不同的用户交互问题，应用于优化图像空间的度量、在创造性任务中帮助用户导航图像空间以及包含用户在特定种子中看到但难以在提示中描述的信息等三种场景。实验证明了所描述方法的可行性。

Aug, 2023

反向稳定扩散：生成此图像所使用的提示是什么？

预测生成式扩散模型所生成图像的文本提示，采用联合回归和多标签词汇分类目标的新型学习框架，结合白盒和黑盒模型解决生成文本提示的问题，并通过课程学习和领域自适应核学习方法进一步改进。实验结果表明，该学习框架在预测文本提示任务上取得了出色的结果，尤其在白盒模型上应用时效果最好，并发现在生成文本到图像时将该模型用于回收训练能够使生成的图像与输入提示更好地对齐。

Aug, 2023

提示硬或几乎不提示：用于文本到图像扩散模型的 Prompt 反转

通过使生成的图像内容与用户意图一致的提示，该方法利用扩散模型进行串行优化得到直观的语言提示，从而产生具有相似内容的多样化图像。

Dec, 2023

Prompting4Debugging: 通过找到问题提示来进行 Red-Teaming 文本到图像传播模型 (Debugging4Prompting: Red-Teaming Text-to-Image Diffusion Models)

利用 Prompting4Debugging (P4D) 工具，我们发现了 Stable Diffusion（SD）模型中的新脆弱性，显示出许多原先被认为 “安全” 的提示实际上可以绕过许多已部署的安全机制，包括概念删除、负面提示和安全指导。这些发现表明，在没有全面测试的情况下，对有限的安全提示基准进行评估可能导致对文本到图像模型的安全性产生错误的认识。

Sep, 2023

DreamDistribution: 基于提示分布学习的文本 - 图像扩散模型

通过使用软提示，我们的研究致力于在更抽象概念或类别的层面上个性化文本到图像扩散模型，使得可以从一组参考图像中借鉴共性，并创造具有足够变化的新实例。我们的解决方案允许预训练的文本到图像扩散模型学习一组软提示，从而使用从学习的分布中采样的提示生成新的图像。这些提示提供了文本引导的编辑能力，并在控制变化和多个分布之间的混合中增加了灵活性。我们还展示了所学提示分布对其他任务的适应性，比如文本到 3D 的转换，并通过自动评估和人工评估的定量分析证明了我们方法的有效性。

Dec, 2023

关于扩散模型离散提示优化的研究

该论文介绍了一个基于梯度的文本到图像扩散模型中的提示优化框架，通过在语言空间上将提示工程化为离散优化问题，并通过解决文本梯度困难和庞大的域空间挑战来提供主要技术贡献，该方法在多个来源的提示上经验验证表明它可以显著提高或破坏文本到图像扩散模型生成图像的可信度。

Jun, 2024

Prompt-Free Diffusion: Taking "Text" out of Text-to-Image Diffusion Models

此篇论文提出了一种名为 Prompt-Free Diffusion 的图像合成框架，该框架基于仅视觉输入，不需要文本提示就能生成新图像，其核心架构是语义上下文编码器 (SeeCoder)，该框架在图像合成方面表现出色，不仅在基于示例的合成方法方面优于先前的方法，在遵循最佳实践的提示下，也能与最先进的 T2I 模型相媲美。

May, 2023

DiffusionDB：一个用于文本到图像生成模型的大规模提示库数据集

通过 DiffusionDB 这个大规模的文本引导数据集，我们可以更好地理解中自然语言提示与生成模型之间的相互作用，检测深度伪造，并设计帮助用户更轻松使用这些模型的人工智能交互工具。

Oct, 2022