ConceptBed: 评估文本到图像扩散模型的概念学习能力
通过利用三层艺术理论的建议,我们提出了一种用于抽象概念的文本到图像生成的框架,该框架通过将抽象概念转化为明确的意图、从 LLMs 中提取的语义相关的物体和依赖于概念的形式来生成图像。人类评估结果和我们设计的概念评分指标的评价结果证明了我们的框架在表达抽象概念方面的有效性。
Sep, 2023
我们提出了一个概念驱动的文本到图像(TTI)个性化框架,通过学习用户提供的图像示例中的概念,以及一种交替优化过程,进一步改进了现有的 TTI 模型,使其能够生成具有多个交互概念的图像。
Feb, 2024
通过引入新数据集 Six-CD 和新评估指标,我们对文本到图像扩散模型中的概念去除方法进行了细致评估,并提供了有价值的观察和讨论。
Jun, 2024
通过对预训练文本到图像扩散模型中的文本嵌入进行微调,我们设计了一种低成本的解决方案,实现自然多概念文本到图像生成,并在扩散步骤中不增加附加的训练或推理成本。我们的方法通过收集与最相似的令牌的语义特征来定位贡献,并应用交叉令牌非极大值抑制来避免不同概念之间的特征混合,从而在文本到图像、图像操作和个性化任务中优于以前的方法。
Oct, 2023
本文介绍了一种基于无监督学习的方法,探讨反向问题 —— 如何从图像集合中发现代表每个图像的生成概念,进一步利用这些生成概念生成新的艺术和混合图像,并将其用作下游分类任务的一种表示。
Jun, 2023
我们提出了一种关注力校准机制,名为 DisenDiff,通过学习可学习的修饰符来捕捉单个图像中的多个概念,并生成具有学习概念的新颖定制图像。我们展示了该方法在定性和定量评估上表现优于当前的最佳方法。此外,我们的技术还与 LoRA 和修复管道兼容,实现更多交互体验。
Mar, 2024
我们在本文中提出了一种经验研究,介绍了一种用于文本到图像(T2I)生成模型的细致评估框架,应用于人类图像合成。我们的框架将评估分为两个不同的组别:第一组主要关注美学和真实性等图像质量,第二组则检验文本条件,包括概念覆盖和公平性。我们引入了一种创新的美学评分预测模型,评估生成图像的视觉吸引力,并首次提供了标记有生成人类图像低质量区域的数据集以便进行自动缺陷检测。我们对概念覆盖的探索考察了模型准确解释和渲染基于文本的概念的有效性,而公平性分析则揭示了模型输出中的偏见,特别关注性别、种族和年龄。尽管我们的研究以人类图像为基础,但这种双重面向的方法被设计成具有灵活性,可以应用于其他形式的图像生成,增强我们对生成模型的理解,并为下一代更复杂、具有上下文意识和伦理关注的生成模型铺平道路。我们将很快发布我们的代码,用于评估生成模型的数据以及标注有有缺陷区域的数据集。
Mar, 2024
利用主题驱动的文本到图像扩散模型,用户可以根据少量示例图像来定制模型来处理预训练数据集中不存在的新概念。然而,现有的主题驱动模型主要依赖于单一概念的输入图像,在处理多概念输入图像时面临着目标概念的指定困难。为此,我们引入了一种文本本地化的文本到图像模型(Texual Localization)来处理多概念输入图像。在微调过程中,我们的方法采用了一种新颖的交叉注意力引导方法,分解多个概念,在文本提示中建立目标概念的视觉表示与标识符令牌之间的明确连接。实验结果表明,在多概念输入图像上,我们的方法在图像保真度和图像文本对齐方面优于或相当于基准模型。与自定义扩散方法相比,我们的方法通过硬引导实现了单一概念生成的 CLIP-I 得分相对提高 7.04%,8.13%,多概念生成的 CLIP-T 得分相对提高 2.22%,5.85%。值得注意的是,我们的方法能够生成与生成图像中目标概念一致的交叉注意力映射,这是现有模型所没有的能力。
Feb, 2024
通过单独的扩散过程和修订方法,本研究提出了一种针对大规模文本到图像扩散模型的通用方法,以解决复杂场景中不同主题及其附件之间的相互干扰,追求更好的文本图像一致性。
Mar, 2024
我们提出了一种名为 EMCID 的两阶段方法,用于在大规模实际场景中同时解决文本到图像扩散模型生成过时、受版权限制、错误和带有偏见的内容的问题。通过对每个个体概念进行双自对齐损失和扩散噪声预测损失的记忆优化,第一阶段实现了内存优化;第二阶段通过多层闭合模型编辑进行大规模概念编辑。我们还提出了一个名为 ImageNet Concept Editing Benchmark(ICEB)的全面评估基准,用于评估 T2I 模型的大规模概念编辑,包括自由形式提示、大规模概念类别和广泛的评估指标。在我们提出的基准和之前的基准上进行的大量实验表明,EMCID 具有卓越的可扩展性,可以编辑多达 1000 个概念,为在实际应用中快速调整和重新部署 T2I 扩散模型提供了实用方法。
Mar, 2024