带有检索增强扩散模型的文本引导艺术图片生成
通过 prompt 学习,我们提出了一种学习扩散模型适当文本描述的框架,通过利用预训练扩散模型导出的质量指导和语义指导,我们的方法可以有效地学习提示,从而提高输入文本和生成图像之间的匹配。通过广泛的实验和分析,验证了所提方法的有效性。
Jan, 2024
我们提出了 BeautifulPrompt,这是一个深度生成模型,可以从非常简单的原始描述中生成高质量的提示,从而使基于扩散模型生成更美丽的图像。我们使用视觉 AI 反馈的强化学习技术来进一步优化模型,以提高生成的提示和图像的质量,并将 BeautifulPrompt 集成到云原生 AI 平台,提供更好的云端文本到图像生成服务。
Nov, 2023
发展首个具有可证明的隐私保证并能生成高质量图像样本的差分隐私检索增强生成算法,通过在文本提示中引入从私有检索数据集检索的样本,无需在检索数据集上微调,利用先进的生成模型生成高质量图像样本,并提供隐私保证。
Mar, 2024
该研究探讨了图像合成模型的细粒度、连续控制,提出了一种新的语义扩散引导统一框架,可以注入预训练的无条件扩散模型的语言或图像指导,并在 FFHQ 和 LSUN 数据集上进行了实验。
Dec, 2021
本文提出了一种 ReDiffuser 图片修复模型,该模型使用自动生成的描述来完成图片编辑,利用再生学习和交叉注意力向导实现图片对形状的一致性保留,并引入一种协作更新策略,提高图片修复的质量和一致性。实验结果表明,该方法在真实和合成图片编辑方面优于现有方法。
May, 2023
本研究提出了一种多模态引导的数字艺术生成方法,即 MGAD 模型,该方法利用多模态提示作为引导,控制无分类器扩散模型,并使用对比语言 - 图像预训练 (CLIP) 模型统一文本和图像模态进行生成,实验结果表明,此方法在产生数字艺术方面有效。
Sep, 2022
本研究探讨了扩散模型在文本条件下生成图像的问题,并比较了不同的指导策略:CLIP 指导和无分类器指导。 结果发现对于照片逼真度和字幕相似性,后者更受人类评估人员的青睐,还可以进行图像修复。
Dec, 2021
本文系统评估了扩散模型生成图像的现有方法,并研究了新的扩展方式以评估它们对数据增强的益处。作者发现,将扩散模型个性化到目标数据的方法优于简单的提示策略,但使用扩散模型的训练数据,通过简单的最近邻检索程序,直接提高下游性能。此项研究揭示了扩散模型在数据增强方面的局限性,同时也突显了其在生成新训练数据方面的潜力,以提高在简单的下游视觉任务中的性能。
Apr, 2023
最近的文本到图像 (T2I) 扩散模型的进展在生成具有零样本泛化能力的高质量图像方面取得了令人印象深刻的成功。然而,当前的模型在紧密遵循提示语义方面存在困难,通常会误代或忽视特定属性。为了解决这个问题,我们提出了一种简单的、无需训练的方法,在推理过程中调节扩散模型的引导方向。我们首先将提示语义分解为一组概念,并监控与每个概念相关的引导轨迹。我们的关键观察是,模型在遵循提示语义方面的偏离与引导从一个或多个概念偏离的差异高度相关。基于这一观察,我们设计了一种技术,将引导方向引导至模型偏离的任何概念。广泛的实验验证了我们的方法可以改善扩散模型对提示的语义对齐。项目页面可在此链接上找到: this https URL
Dec, 2023