从一张图像中提取多个概念
利用主题驱动的文本到图像扩散模型,用户可以根据少量示例图像来定制模型来处理预训练数据集中不存在的新概念。然而,现有的主题驱动模型主要依赖于单一概念的输入图像,在处理多概念输入图像时面临着目标概念的指定困难。为此,我们引入了一种文本本地化的文本到图像模型(Texual Localization)来处理多概念输入图像。在微调过程中,我们的方法采用了一种新颖的交叉注意力引导方法,分解多个概念,在文本提示中建立目标概念的视觉表示与标识符令牌之间的明确连接。实验结果表明,在多概念输入图像上,我们的方法在图像保真度和图像文本对齐方面优于或相当于基准模型。与自定义扩散方法相比,我们的方法通过硬引导实现了单一概念生成的 CLIP-I 得分相对提高 7.04%,8.13%,多概念生成的 CLIP-T 得分相对提高 2.22%,5.85%。值得注意的是,我们的方法能够生成与生成图像中目标概念一致的交叉注意力映射,这是现有模型所没有的能力。
Feb, 2024
我们提出了一个概念驱动的文本到图像(TTI)个性化框架,通过学习用户提供的图像示例中的概念,以及一种交替优化过程,进一步改进了现有的 TTI 模型,使其能够生成具有多个交互概念的图像。
Feb, 2024
我们提出了一种关注力校准机制,名为 DisenDiff,通过学习可学习的修饰符来捕捉单个图像中的多个概念,并生成具有学习概念的新颖定制图像。我们展示了该方法在定性和定量评估上表现优于当前的最佳方法。此外,我们的技术还与 LoRA 和修复管道兼容,实现更多交互体验。
Mar, 2024
使用 AttenCraft 方法,我们提出了一种基于注意力引导的多概念解缠方法,它使用了自注意力和交叉注意力图来生成精确的概念掩模,并在训练过程中应用于每个目标概念的交叉注意力激活,从而在图像对齐方面优于基线模型,并在文本对齐方面表现相当。
May, 2024
提出了一种基于场景控制、区域特征和转换器的文本生成图像方法,实现了高分辨率 (512x512) 下最先进的生成图像质量和人工评估结果,并实现了场景编辑、文本编辑和故事插图生成等新功能。
Mar, 2022
通过对预训练文本到图像扩散模型中的文本嵌入进行微调,我们设计了一种低成本的解决方案,实现自然多概念文本到图像生成,并在扩散步骤中不增加附加的训练或推理成本。我们的方法通过收集与最相似的令牌的语义特征来定位贡献,并应用交叉令牌非极大值抑制来避免不同概念之间的特征混合,从而在文本到图像、图像操作和个性化任务中优于以前的方法。
Oct, 2023
通过单独的扩散过程和修订方法,本研究提出了一种针对大规模文本到图像扩散模型的通用方法,以解决复杂场景中不同主题及其附件之间的相互干扰,追求更好的文本图像一致性。
Mar, 2024
本文针对文本到图像模型中的特征表征进行了分解,通过学习一个假的标记,将输入文本提示分解为一小组可解释元素,对现有良好的稳定扩散模型进行了应用,我们发现某些概念由特定实例主导,而其他概念则结合具体和抽象的关联术语,此外,我们的方法还可以实现单幅图像分解、偏置检测和缓解以及语义图像操作。
Jun, 2023
以几张图片为输入,定制化文本到图像生成技术 DETEX 的创新方法通过学习多个单词嵌入来表示每个图像,包括可以共享的主题嵌入和多个图像特定的非主题嵌入,以便解耦不相关的属性,并利用联合训练策略鼓励这些不相关的嵌入捕捉无关信息。在推理过程中,仅使用主题嵌入进行图像生成,同时选择性地使用图像特定的嵌入以保留图像特定的属性。经过广泛实验证明,我们的方法获得的主题嵌入可以忠实地表示目标概念,并显示出与最先进方法相比的优越编辑性能。
Dec, 2023
MC^2 introduces Multi-concept guidance for Multi-concept customization, improving flexibility and fidelity in customized text-to-image generation while surpassing previous methods and elevating compositional capabilities.
Apr, 2024