AttenCraft: 文本图像定制中基于注意力引导的多概念解耦
我们提出了一种关注力校准机制,名为 DisenDiff,通过学习可学习的修饰符来捕捉单个图像中的多个概念,并生成具有学习概念的新颖定制图像。我们展示了该方法在定性和定量评估上表现优于当前的最佳方法。此外,我们的技术还与 LoRA 和修复管道兼容,实现更多交互体验。
Mar, 2024
我们提出了一个概念驱动的文本到图像(TTI)个性化框架,通过学习用户提供的图像示例中的概念,以及一种交替优化过程,进一步改进了现有的 TTI 模型,使其能够生成具有多个交互概念的图像。
Feb, 2024
本文提出了一种文本场景分解任务,并介绍了一种基于掩模增强的输入方法和一个新颖的两阶段自定义过程,用于针对生成图像中的特定概念进行微调,并使用多种自动度量标准和用户研究,验证了该方法的有效性。
May, 2023
利用主题驱动的文本到图像扩散模型,用户可以根据少量示例图像来定制模型来处理预训练数据集中不存在的新概念。然而,现有的主题驱动模型主要依赖于单一概念的输入图像,在处理多概念输入图像时面临着目标概念的指定困难。为此,我们引入了一种文本本地化的文本到图像模型(Texual Localization)来处理多概念输入图像。在微调过程中,我们的方法采用了一种新颖的交叉注意力引导方法,分解多个概念,在文本提示中建立目标概念的视觉表示与标识符令牌之间的明确连接。实验结果表明,在多概念输入图像上,我们的方法在图像保真度和图像文本对齐方面优于或相当于基准模型。与自定义扩散方法相比,我们的方法通过硬引导实现了单一概念生成的 CLIP-I 得分相对提高 7.04%,8.13%,多概念生成的 CLIP-T 得分相对提高 2.22%,5.85%。值得注意的是,我们的方法能够生成与生成图像中目标概念一致的交叉注意力映射,这是现有模型所没有的能力。
Feb, 2024
提出一种基于参考概念的无需微调的方法生成多概念组合的定制图像,仅需每个概念一幅图像作为输入。通过引入多参考自注意力机制和加权蒙版策略,产生与给定概念一致且更好地与输入文本对齐的图像。与其他基于训练的方法相比,在多概念组合和单概念定制方面,方法表现优秀且更简单。
May, 2024
通过单独的扩散过程和修订方法,本研究提出了一种针对大规模文本到图像扩散模型的通用方法,以解决复杂场景中不同主题及其附件之间的相互干扰,追求更好的文本图像一致性。
Mar, 2024
我们提出了一种有效且快速的方法,可在不进行任何微调的情况下生成个性化图像,并保持扩散模型内在的文本到图像生成能力。通过操作原始扩散模型的交叉注意力和自注意力层,将自定义概念合并到生成图像中,以生成与文本描述相匹配的个性化图像。综合实验突出了我们方法的优越性。
Mar, 2024
本文提出了两种测试时间注意力损失函数,显著提高了预训练的基线文本到图像扩散模型的性能。第一,注意力隔离损失减少了文本提示中不同概念的注意力图之间的交叉重叠,从而减少了各种概念间的混淆 / 冲突和在生成的输出中捕获所有概念的最终目标。接下来,我们的注意力保留损失明确强制文本到图像扩散模型在整个去噪时间步中保留所有概念的交叉注意力信息,从而减少信息丢失并保留生成输出中的所有概念。
Jun, 2023
通过对预训练文本到图像扩散模型中的文本嵌入进行微调,我们设计了一种低成本的解决方案,实现自然多概念文本到图像生成,并在扩散步骤中不增加附加的训练或推理成本。我们的方法通过收集与最相似的令牌的语义特征来定位贡献,并应用交叉令牌非极大值抑制来避免不同概念之间的特征混合,从而在文本到图像、图像操作和个性化任务中优于以前的方法。
Oct, 2023