扩散模型中的提示工程研究
通过 prompt 学习,我们提出了一种学习扩散模型适当文本描述的框架,通过利用预训练扩散模型导出的质量指导和语义指导,我们的方法可以有效地学习提示,从而提高输入文本和生成图像之间的匹配。通过广泛的实验和分析,验证了所提方法的有效性。
Jan, 2024
我们提出并分析了一种直接改变提示嵌入而非提示文本的方法,将生成的文本到图像模型视为一个连续函数,并在图像空间和提示嵌入空间之间传递梯度,通过解决不同的用户交互问题,应用于优化图像空间的度量、在创造性任务中帮助用户导航图像空间以及包含用户在特定种子中看到但难以在提示中描述的信息等三种场景。实验证明了所描述方法的可行性。
Aug, 2023
预测生成式扩散模型所生成图像的文本提示,采用联合回归和多标签词汇分类目标的新型学习框架,结合白盒和黑盒模型解决生成文本提示的问题,并通过课程学习和领域自适应核学习方法进一步改进。实验结果表明,该学习框架在预测文本提示任务上取得了出色的结果,尤其在白盒模型上应用时效果最好,并发现在生成文本到图像时将该模型用于回收训练能够使生成的图像与输入提示更好地对齐。
Aug, 2023
通过使生成的图像内容与用户意图一致的提示,该方法利用扩散模型进行串行优化得到直观的语言提示,从而产生具有相似内容的多样化图像。
Dec, 2023
利用 Prompting4Debugging (P4D) 工具,我们发现了 Stable Diffusion(SD)模型中的新脆弱性,显示出许多原先被认为 “安全” 的提示实际上可以绕过许多已部署的安全机制,包括概念删除、负面提示和安全指导。这些发现表明,在没有全面测试的情况下,对有限的安全提示基准进行评估可能导致对文本到图像模型的安全性产生错误的认识。
Sep, 2023
通过使用软提示,我们的研究致力于在更抽象概念或类别的层面上个性化文本到图像扩散模型,使得可以从一组参考图像中借鉴共性,并创造具有足够变化的新实例。我们的解决方案允许预训练的文本到图像扩散模型学习一组软提示,从而使用从学习的分布中采样的提示生成新的图像。这些提示提供了文本引导的编辑能力,并在控制变化和多个分布之间的混合中增加了灵活性。我们还展示了所学提示分布对其他任务的适应性,比如文本到 3D 的转换,并通过自动评估和人工评估的定量分析证明了我们方法的有效性。
Dec, 2023
该论文介绍了一个基于梯度的文本到图像扩散模型中的提示优化框架,通过在语言空间上将提示工程化为离散优化问题,并通过解决文本梯度困难和庞大的域空间挑战来提供主要技术贡献,该方法在多个来源的提示上经验验证表明它可以显著提高或破坏文本到图像扩散模型生成图像的可信度。
Jun, 2024
此篇论文提出了一种名为 Prompt-Free Diffusion 的图像合成框架,该框架基于仅视觉输入,不需要文本提示就能生成新图像,其核心架构是语义上下文编码器 (SeeCoder),该框架在图像合成方面表现出色,不仅在基于示例的合成方法方面优于先前的方法,在遵循最佳实践的提示下,也能与最先进的 T2I 模型相媲美。
May, 2023
通过 DiffusionDB 这个大规模的文本引导数据集,我们可以更好地理解中自然语言提示与生成模型之间的相互作用,检测深度伪造,并设计帮助用户更轻松使用这些模型的人工智能交互工具。
Oct, 2022