ClassDiffusion：使用明确的类别引导实现更加一致的个性化调优

May, 2024

ClassDiffusion：使用明确的类别引导实现更加一致的个性化调优

ClassDiffusion: More Aligned Personalization Tuning with Explicit Class Guidance

Jiannan Huang, Jun Hao Liew, Hanshu Yan, Yuyang Yin, Yao Zhao...

TL;DR最近的文本到图像定制方法在少量示例的基础上通过调整扩散模型已被证明成功生成给定概念的图像。然而，这些方法往往对概念过拟合，在多种条件下（例如，“在生成戴耳机的狗时耳机丢失”）无法创建概念。我们注意到，在微调之前的基准模型表现出与其他元素（例如，“戴耳机的狗”）组合的能力，暗示了这种组合能力仅在个性化调整后消失。受此观察的启发，我们提出了 ClassDiffusion，这是一种利用语义保持损失在学习新概念时明确调控概念空间的简单技术。尽管其简单性，这有助于在目标概念上进行微调时避免语义漂移。广泛的定性和定量实验证明了使用语义保持损失有效地改善了微调模型的组合能力。针对 CLIP-T 指标的无效评估，我们提出了 BLIP2-T 指标，这是一种针对这个特定领域更公正和有效的评估指标。我们还对所提出的损失的角色进行了深入实证研究和理论分析。最后，我们还将 ClassDiffusion 扩展到个性化视频生成，展示了其灵活性。

Abstract

Recent text-to-image customization works have been proven successful in generating images of given concepts by fine-tuning the diffusion models on a few examples. However, these methods tend to overfit the concep

text-to-image customization concept generation fine-tuning semantic preservation loss compositional abilities

发现论文，激发创造

文本到图像扩散的多概念自定义

本文介绍了一种基于 Custom Diffusion 的文本到图像生成模型，只需少量优化参数即可表示新概念并实现快速调整，还可以通过约束优化共同训练多个概念或组合多个微调模型，并在新颖的环境中将多个概念无缝组合生成，此方法在记忆和计算效能方面都占有优势。

Dec, 2022

扩散模型中定制概念的非混淆生成

通过文本引导的扩散模型解决了组合概念生成中的常见挑战 —— 概念之间的视觉混淆，并针对定制概念的生成提出了一种简单有效的解决方案 CLIF：对比图像 - 语言微调，实验证明其在防止多定制概念生成中的混淆方面非常有效。

May, 2024

通过语义扩散引导使图像合成更加可控

该研究探讨了图像合成模型的细粒度、连续控制，提出了一种新的语义扩散引导统一框架，可以注入预训练的无条件扩散模型的语言或图像指导，并在 FFHQ 和 LSUN 数据集上进行了实验。

Dec, 2021

个性化扩散模型中的快速学习探究与防御

通过捷径学习视角细致观察个性化扩散模型的微调过程，提出了一种能解释现有扰动方法基本捷径学习漏洞的假设。基于这一观察，提出了一种系统性方法来保持训练绩效并通过纯化重排潜在图像和其语义含义，还引入了负令牌的对比学习，以解耦所需的干净身份学习和不需要的噪声模式，对进一步适应性扰动显示出强大的潜力能力。

Jun, 2024

文本到图像扩散模型的语义引导调整

最近的文本到图像 (T2I) 扩散模型的进展在生成具有零样本泛化能力的高质量图像方面取得了令人印象深刻的成功。然而，当前的模型在紧密遵循提示语义方面存在困难，通常会误代或忽视特定属性。为了解决这个问题，我们提出了一种简单的、无需训练的方法，在推理过程中调节扩散模型的引导方向。我们首先将提示语义分解为一组概念，并监控与每个概念相关的引导轨迹。我们的关键观察是，模型在遵循提示语义方面的偏离与引导从一个或多个概念偏离的差异高度相关。基于这一观察，我们设计了一种技术，将引导方向引导至模型偏离的任何概念。广泛的实验验证了我们的方法可以改善扩散模型对提示的语义对齐。项目页面可在此链接上找到: this https URL

Dec, 2023

只保留模型的手术概念擦除在文本到图像扩散模型中

通过手术更新分类器导向项、限制无条件得分项的变化，以及赋予用户选择擦除概念的替代方案的能力，我们提出了一种能够有效擦除目标概念并保留生成能力的新方法。

Dec, 2023

基于视觉概念驱动的文字到图像扩散模型的图像生成

我们提出了一个概念驱动的文本到图像（TTI）个性化框架，通过学习用户提供的图像示例中的概念，以及一种交替优化过程，进一步改进了现有的 TTI 模型，使其能够生成具有多个交互概念的图像。

Feb, 2024

Gen4Gen：生成式多概念组合的生成数据管道

该研究介绍了一种基于 Gen4Gen 的半自动数据集创建流程，并提出了一种综合指标以更好地量化多概念个性化文本到图像扩散方法的性能。研究通过改善数据质量和提示策略，将实现多概念个性化图像生成质量的显著提高，而无需对模型架构或训练算法进行任何修改。

Feb, 2024

MM-Diff: 多模态条件融合的高保真图像个性化

为了提高主题准确性，我们提出了 MM-Diff 的统一且无需调参的个性化图像生成框架，能够在几秒钟内生成单个和多个主题的高保真图像。MM-Diff 利用视觉编码器将输入图像转换为 CLS 和 patch 嵌入，而通过设计精良的多模态交叉注意机制，CLS 嵌入一方面用于增强文本嵌入，另一方面与 patch 嵌入一起用于生成少量细节丰富的主题嵌入，并且在训练过程中引入了交叉注意图约束，确保推理过程中的灵活多主题图像采样。大量实验证明了 MM-Diff 相对于其他主要方法的优越性能。

Mar, 2024

孤立扩散：多概念文本到图像生成的优化 —— 在自由训练中使用孤立扩散引导

通过单独的扩散过程和修订方法，本研究提出了一种针对大规模文本到图像扩散模型的通用方法，以解决复杂场景中不同主题及其附件之间的相互干扰，追求更好的文本图像一致性。

Mar, 2024