文本图像个性化的锁定关键排名一编辑
通过分析过拟合问题,我们提出了一种名为 Infusion 的 T2I 个性化方法,使学习目标概念不受训练模态的限制,同时保留非个性化知识,且仅需要 11KB 的训练参数。大量实验证明,我们的方法在单概念和多概念个性化生成方面都优于现有技术。
Apr, 2024
我们提出了一个概念驱动的文本到图像(TTI)个性化框架,通过学习用户提供的图像示例中的概念,以及一种交替优化过程,进一步改进了现有的 TTI 模型,使其能够生成具有多个交互概念的图像。
Feb, 2024
PaRa 是一种用于 T2I 模型个性化的参数等级减少方法,通过显式控制扩散模型参数的等级来限制其初始的多样化生成空间为一个小而平衡的目标空间,通过全面实验证明,PaRa 在单 / 多主题生成以及单图像编辑方面相比现有的微调方法具有更好的参数效率(2 倍更少的可学习参数)和更好的目标图像对齐效果。
Jun, 2024
我们提出了一种关注力校准机制,名为 DisenDiff,通过学习可学习的修饰符来捕捉单个图像中的多个概念,并生成具有学习概念的新颖定制图像。我们展示了该方法在定性和定量评估上表现优于当前的最佳方法。此外,我们的技术还与 LoRA 和修复管道兼容,实现更多交互体验。
Mar, 2024
T2I 个性化通过语义匹配替换目标值与参考值,将 T2I 个性化重新构想为语义匹配,避免破坏预训练模型的多样性能力,并引入了一种语义一致的遮罩策略以隔离个性化概念与目标提示之外的无关区域。
Feb, 2024
我们提出了一种有效且快速的方法,可在不进行任何微调的情况下生成个性化图像,并保持扩散模型内在的文本到图像生成能力。通过操作原始扩散模型的交叉注意力和自注意力层,将自定义概念合并到生成图像中,以生成与文本描述相匹配的个性化图像。综合实验突出了我们方法的优越性。
Mar, 2024
本文提出了一种基于编码器的文本到图像(T2I)个性化生成方法,使用一种对领域不敏感的对比度正则化技术来实现目标概念特征的高保真度,并将预测的嵌入值保持在可编辑的潜在空间区域,从而实现了基于 CLIP(一种联合学习图像和文本的新型表示方法)标记的最短距离。实验结果证明了我们方法的有效性和学习标记比未规范化模型预测的标记更具语义性的优点,并且比以前的方法更加灵活,表现出最先进的性能。
Jul, 2023
通过最大化与参考图像的一致性并惩罚与预训练模型的偏差,我们提出了一种通过最小程度微调预训练模型以实现一致性的 T2I 扩散模型的新型训练目标,称为 “直接一致性优化”。我们的方法不仅简单而且显著提高了个性化 T2I 模型的组合能力,并引入了一种控制图像保真度和提示保真度权衡的抽样方法。最后,我们强调必须使用详尽的标题作为参考图像,以进一步增强图像和文本的对齐。我们证明了所提方法在 T2I 主题、风格或两者个性化方面的有效性。生成的示例和代码可在我们的项目页面(this https URL)中找到。
Feb, 2024
本文介绍一种基于高度个性化文本嵌入的简单而高效的方法,通过分解 CLIP 嵌入空间来实现个性化和内容操作,并且仅需要一个图像和目标文本即可实现背景、纹理和动态的操作和编辑。
Mar, 2023
研究了个人化的文本到图像(T2I)扩散模型的潜在漏洞和易受攻击的方法,并探讨了两种个性化方法中零日后门漏洞的普遍性及其操作和利用潜力,并分析了触发器和概念图像对攻击效果的影响。
May, 2023