通过学徒式学习实现基于主题的文本生成图像

Apr, 2023

通过学徒式学习实现基于主题的文本生成图像

Subject-driven Text-to-Image Generation via Apprenticeship Learning

Wenhu Chen, Hexiang Hu, Yandong Li, Nataniel Rui, Xuhui Jia...

TL;DR本文介绍了一种基于 SuTI 的主体驱动图像生成器，它采用集体学习算法来替代特定主体的在线学习过程，可以快速生成高质量、定制化的主体特有图像。

Abstract

Recent text-to-image generation models like DreamBooth have made remarkable progress in generating highly customized images of a target subject, by fine-tuning an ``expert model'' for a given subject from a few examples. However, this process is expensive, since a new expert model must

text-to-image generation suti apprenticeship learning subject-driven expert models

发现论文，激发创造

DreamBooth: 针对主题驱动生成的 Fine Tuning 文字到图像扩散模型

提出了一种新的 text-to-image 模型的个性化方法，该方法能够通过少量输入的图像，fine-tune 预训练的 text-to-image 模型，使其能够将唯一标识符绑定到特定主题上，并能够综合场景、姿态、观点和光照中出现的主题的新颖的高清图像。

Aug, 2022

无需训练的一致文本图像生成

ConsiStory 是一种无需训练的方法，通过共享预训练模型的内部激活来实现一致的主题生成，同时采用基于主题的共享注意力块和基于对应关系的特征注入来促进图像之间的一致性。通过与各种基线对比，我们展示了 ConsiStory 在主题一致性和文本对齐方面的最先进性能，而无需进行任何优化步骤。最后，ConsiStory 可以自然地扩展到多主题场景，甚至可以对常见物体进行无需训练的个性化。

Feb, 2024

AutoStudio: 多回合互动图像生成中一致主题的构建

AutoStudio 是一个训练免费的多代理框架，通过使用大型语言模型生成高质量图像，并且能够与用户进行多次交互来生成一系列多主题图像。

Jun, 2024

DreamTuner：主题驱动生成仅需一张图片

DreamTurner 是一种新方法，通过将粗略主题特征逐渐注入到细节中，有效地实现主题驱动的图像生成，其中引入了主题编码器以保留粗略主题特征并使用自主题注意力层来提炼目标主题的细节特征。

Dec, 2023

提升以主体为导向的图像合成技术：主体无关引导的优化

通过构建一个主题不可知条件并应用我们提出的双分类器自由指导，我们展示了我们的方法在生成与给定主题和输入文本提示一致的输出方面的有效性，并通过优化和编码方法验证了我们的方法的可行性，同时还展示了其在二阶定制方法中的适用性。

May, 2024

AttnDreamBooth: 面向文本对齐的个性化文本与图像生成

该研究针对文本到图像个性化合成过程中的限制性问题，分析了两种主要技术（文本反转和 DreamBooth）的不足之处，并引入了一种名为 AttnDreamBooth 的新方法来解决这些问题，通过在不同的训练阶段分别学习嵌入对齐、注意力图和主体身份。同时，采用交叉注意力图正则化项来增强对注意力图的学习，相较于基准方法，我们的方法在保护身份信息和文本对齐方面取得了显著改进。

Jun, 2024

主题扩散：无需测试时间微调的开放领域个性化文本到图像生成

我们提出了一种新的开放域个性化图像生成模型 Subject-Diffusion，它不需要测试时微调，只需要一个参考图像就能在任何领域中支持个性化生成单一或多个主体。我们通过构建自动数据标注工具和使用 LAION-Aesthetics 数据集，构建了一个包含 7600 万图像及其对应主体检测边界框、分割掩模和文本描述的大规模数据集。我们设计了一个新的统一框架，通过融合文本和图像语义，并结合粗粒度位置和细粒度参考图像控制，以最大化主体的准确性和一般化能力。此外，我们还采用了一种注意力控制机制来支持多主体生成。大量的定性和定量结果表明，我们的方法在单一、多个和人类定制的图像生成方面优于其他最先进的框架。请参考我们的项目页面。

Jul, 2023

通过细分和双重绑定实现任何艺术风格的文本到图像合成

该研究论文介绍了一种名为 Single-StyleForge 的新方法，用于将预训练的文本到图像扩散模型进行个性化训练，从文本提示中生成指定风格的多样化图像。此外，研究还提出了一种名为 Multi-StyleForge 的改进方法，通过学习多个标记来改善风格和文本 - 图像对齐的质量，在六种不同的艺术风格上实验评估表明，在生成的图像质量和感知保真度指标（如 FID、KID 和 CLIP 分数）方面取得了显着的改善。

Apr, 2024

无需训练的增强主体注意力引导的文本到图像生成

我们提出了一种主题驱动的生成框架，通过介入生成过程中的推理时间，强化注意力图，实现精确的属性绑定和特征注入，展示了卓越的零次生成能力，尤其在组合生成的挑战性任务中。

May, 2024

Lafite2: 少样本文本到图像生成

本文提出了一种在仅有图像数据集的情况下预训练文本到图像生成模型的新方法，通过检索和优化过程综合生成伪文本特征，可以灵活应用于各种情境和模型，并在实验中表现出显著的效果，GAN 模型在完全监督的情况下得到了 6.78 的 FID，是 GAN 最新的 SoTA 结果。

Oct, 2022