基于文本引导的扩散模型的有趣性质
这项研究提出了一种利用反馈机制来控制文本到图像生成模型,以生成对监督学习特别有用的训练数据的方法,并且通过引入指导目标分布的反馈机制,演示了该方法在不同任务、数据集和架构上相对于开环方法的有效性。
Mar, 2024
通过 prompt 学习,我们提出了一种学习扩散模型适当文本描述的框架,通过利用预训练扩散模型导出的质量指导和语义指导,我们的方法可以有效地学习提示,从而提高输入文本和生成图像之间的匹配。通过广泛的实验和分析,验证了所提方法的有效性。
Jan, 2024
本研究介绍了一种基于文本的图像编辑方法,利用最新的扩散模型对一些基于文本主题的地方图像进行编辑,通过结合扩散模型的速度和 Blended Diffusion,提高了编辑的效率,并通过优化方法来解决扩散模型无法完美重建图像的问题,实现了比当前方法更高的精度和速度
Jun, 2022
扩散模型为一种强大的生成模型,能够从纯噪声中生成高质量的图像。条件扩散模型通过简单的文本提示能够指定所需图像的内容,然而,仅仅基于文本提示无法对最终图像的构成和布局进行细致的控制,而这取决于初始噪声分布。本文探讨了两种改进方法,并演示了当这两种方法结合使用时可以获得更好的性能。
May, 2024
最近的文本到图像 (T2I) 扩散模型的进展在生成具有零样本泛化能力的高质量图像方面取得了令人印象深刻的成功。然而,当前的模型在紧密遵循提示语义方面存在困难,通常会误代或忽视特定属性。为了解决这个问题,我们提出了一种简单的、无需训练的方法,在推理过程中调节扩散模型的引导方向。我们首先将提示语义分解为一组概念,并监控与每个概念相关的引导轨迹。我们的关键观察是,模型在遵循提示语义方面的偏离与引导从一个或多个概念偏离的差异高度相关。基于这一观察,我们设计了一种技术,将引导方向引导至模型偏离的任何概念。广泛的实验验证了我们的方法可以改善扩散模型对提示的语义对齐。项目页面可在此链接上找到: this https URL
Dec, 2023
通过引入一个缩放因子,适应各种尺寸和长宽比的图像,在保持视觉保真度的同时,改善了低分辨率图像上目标不完整和高分辨率图像上重复表示的问题。
Jun, 2023
本文通过在三个语义层次(像素、物体和风格)上对基于文本到图像转换的扩散模型的后门攻击进行实验和讨论,提出了 BadT2I 攻击框架并利用正则化损失注入恶意输入。实验结果表明,现代扩散模型可以在几个微调步骤内轻易被后门攻击,在进一步的训练过程中攻击效果仍能保持。
May, 2023
为了解决当前依赖互联网数据随机抓取并导致人类行为退化和偏见的文本导向图像生成方法在生成图像时存在的问题,我们提出了一种名为安全潜在扩散(SLD)的图像噪声过滤方法,从而通过包含不恰当的图像提示的实际图像 - 文本提示解决了这些问题。经过详尽的实证评估表明,SLD 能够在扩散过程中去除不恰当的图像部分,不需要额外的培训,并且对图像质量或文本对齐没有负面影响。
Nov, 2022
近年来,文本到图像(T2I)模型取得了显著进展并广泛应用,然而这一进展无意中开辟了潜在的滥用途径,尤其是生成不适宜或不安全的内容。我们的工作引入了 MMA-Diffusion,这是一个对 T2I 模型安全性构成严重和真实威胁的框架,通过有效绕过开源模型和商业在线服务的当前防御措施。与以往的方法不同,MMA-Diffusion 利用文本和视觉模式来绕过提示过滤器和事后安全检查器等保护措施,从而揭示现有防御机制的弱点。
Nov, 2023