提升以主体为导向的图像合成技术:主体无关引导的优化
我们提出了一种主题驱动的生成框架,通过介入生成过程中的推理时间,强化注意力图,实现精确的属性绑定和特征注入,展示了卓越的零次生成能力,尤其在组合生成的挑战性任务中。
May, 2024
本文介绍了一种基于 SuTI 的主体驱动图像生成器,它采用集体学习算法来替代特定主体的在线学习过程,可以快速生成高质量、定制化的主体特有图像。
Apr, 2023
提出了一种新的 text-to-image 模型的个性化方法,该方法能够通过少量输入的图像,fine-tune 预训练的 text-to-image 模型,使其能够将唯一标识符绑定到特定主题上,并能够综合场景、姿态、观点和光照中出现的主题的新颖的高清图像。
Aug, 2022
该研究探讨了图像合成模型的细粒度、连续控制,提出了一种新的语义扩散引导统一框架,可以注入预训练的无条件扩散模型的语言或图像指导,并在 FFHQ 和 LSUN 数据集上进行了实验。
Dec, 2021
ConsiStory 是一种无需训练的方法,通过共享预训练模型的内部激活来实现一致的主题生成,同时采用基于主题的共享注意力块和基于对应关系的特征注入来促进图像之间的一致性。通过与各种基线对比,我们展示了 ConsiStory 在主题一致性和文本对齐方面的最先进性能,而无需进行任何优化步骤。最后,ConsiStory 可以自然地扩展到多主题场景,甚至可以对常见物体进行无需训练的个性化。
Feb, 2024
研究在多个主题约束下如何高效地表示一个特定主题以及如何适当地组合不同主题,并提出了一种方案,该方案利用文本嵌入和布局来生成图像,并通过实验证明了其在多个主题的自定义方面具有优越性。
May, 2023
最近的文本到图像 (T2I) 扩散模型的进展在生成具有零样本泛化能力的高质量图像方面取得了令人印象深刻的成功。然而,当前的模型在紧密遵循提示语义方面存在困难,通常会误代或忽视特定属性。为了解决这个问题,我们提出了一种简单的、无需训练的方法,在推理过程中调节扩散模型的引导方向。我们首先将提示语义分解为一组概念,并监控与每个概念相关的引导轨迹。我们的关键观察是,模型在遵循提示语义方面的偏离与引导从一个或多个概念偏离的差异高度相关。基于这一观察,我们设计了一种技术,将引导方向引导至模型偏离的任何概念。广泛的实验验证了我们的方法可以改善扩散模型对提示的语义对齐。项目页面可在此链接上找到: this https URL
Dec, 2023
该研究提出了基于属性引导的数据增强方案 (AGA),采用深度编码器 - 解码器架构来学习综合函数,以在 1-shot 对象识别和场景识别问题中改善模型在分类任务上的性能。
Dec, 2016