通过学徒式学习实现基于主题的文本生成图像
提出了一种新的 text-to-image 模型的个性化方法,该方法能够通过少量输入的图像,fine-tune 预训练的 text-to-image 模型,使其能够将唯一标识符绑定到特定主题上,并能够综合场景、姿态、观点和光照中出现的主题的新颖的高清图像。
Aug, 2022
ConsiStory 是一种无需训练的方法,通过共享预训练模型的内部激活来实现一致的主题生成,同时采用基于主题的共享注意力块和基于对应关系的特征注入来促进图像之间的一致性。通过与各种基线对比,我们展示了 ConsiStory 在主题一致性和文本对齐方面的最先进性能,而无需进行任何优化步骤。最后,ConsiStory 可以自然地扩展到多主题场景,甚至可以对常见物体进行无需训练的个性化。
Feb, 2024
AutoStudio 是一个训练免费的多代理框架,通过使用大型语言模型生成高质量图像,并且能够与用户进行多次交互来生成一系列多主题图像。
Jun, 2024
DreamTurner 是一种新方法,通过将粗略主题特征逐渐注入到细节中,有效地实现主题驱动的图像生成,其中引入了主题编码器以保留粗略主题特征并使用自主题注意力层来提炼目标主题的细节特征。
Dec, 2023
通过构建一个主题不可知条件并应用我们提出的双分类器自由指导,我们展示了我们的方法在生成与给定主题和输入文本提示一致的输出方面的有效性,并通过优化和编码方法验证了我们的方法的可行性,同时还展示了其在二阶定制方法中的适用性。
May, 2024
该研究针对文本到图像个性化合成过程中的限制性问题,分析了两种主要技术(文本反转和 DreamBooth)的不足之处,并引入了一种名为 AttnDreamBooth 的新方法来解决这些问题,通过在不同的训练阶段分别学习嵌入对齐、注意力图和主体身份。同时,采用交叉注意力图正则化项来增强对注意力图的学习,相较于基准方法,我们的方法在保护身份信息和文本对齐方面取得了显著改进。
Jun, 2024
我们提出了一种新的开放域个性化图像生成模型 Subject-Diffusion,它不需要测试时微调,只需要一个参考图像就能在任何领域中支持个性化生成单一或多个主体。我们通过构建自动数据标注工具和使用 LAION-Aesthetics 数据集,构建了一个包含 7600 万图像及其对应主体检测边界框、分割掩模和文本描述的大规模数据集。我们设计了一个新的统一框架,通过融合文本和图像语义,并结合粗粒度位置和细粒度参考图像控制,以最大化主体的准确性和一般化能力。此外,我们还采用了一种注意力控制机制来支持多主体生成。大量的定性和定量结果表明,我们的方法在单一、多个和人类定制的图像生成方面优于其他最先进的框架。请参考我们的项目页面。
Jul, 2023
该研究论文介绍了一种名为 Single-StyleForge 的新方法,用于将预训练的文本到图像扩散模型进行个性化训练,从文本提示中生成指定风格的多样化图像。此外,研究还提出了一种名为 Multi-StyleForge 的改进方法,通过学习多个标记来改善风格和文本 - 图像对齐的质量,在六种不同的艺术风格上实验评估表明,在生成的图像质量和感知保真度指标(如 FID、KID 和 CLIP 分数)方面取得了显着的改善。
Apr, 2024
我们提出了一种主题驱动的生成框架,通过介入生成过程中的推理时间,强化注意力图,实现精确的属性绑定和特征注入,展示了卓越的零次生成能力,尤其在组合生成的挑战性任务中。
May, 2024
本文提出了一种在仅有图像数据集的情况下预训练文本到图像生成模型的新方法,通过检索和优化过程综合生成伪文本特征,可以灵活应用于各种情境和模型,并在实验中表现出显著的效果,GAN 模型在完全监督的情况下得到了 6.78 的 FID,是 GAN 最新的 SoTA 结果。
Oct, 2022