May, 2024

ClassDiffusion:使用明确的类别引导实现更加一致的个性化调优

TL;DR最近的文本到图像定制方法在少量示例的基础上通过调整扩散模型已被证明成功生成给定概念的图像。然而,这些方法往往对概念过拟合,在多种条件下(例如,“在生成戴耳机的狗时耳机丢失”)无法创建概念。我们注意到,在微调之前的基准模型表现出与其他元素(例如,“戴耳机的狗”)组合的能力,暗示了这种组合能力仅在个性化调整后消失。受此观察的启发,我们提出了 ClassDiffusion,这是一种利用语义保持损失在学习新概念时明确调控概念空间的简单技术。尽管其简单性,这有助于在目标概念上进行微调时避免语义漂移。广泛的定性和定量实验证明了使用语义保持损失有效地改善了微调模型的组合能力。针对 CLIP-T 指标的无效评估,我们提出了 BLIP2-T 指标,这是一种针对这个特定领域更公正和有效的评估指标。我们还对所提出的损失的角色进行了深入实证研究和理论分析。最后,我们还将 ClassDiffusion 扩展到个性化视频生成,展示了其灵活性。