基于视觉概念驱动的文字到图像扩散模型的图像生成
本文介绍了一种基于Custom Diffusion的文本到图像生成模型,只需少量优化参数即可表示新概念并实现快速调整,还可以通过约束优化共同训练多个概念或组合多个微调模型,并在新颖的环境中将多个概念无缝组合生成,此方法在记忆和计算效能方面都占有优势。
Dec, 2022
本文提出了一种文本场景分解任务,并介绍了一种基于掩模增强的输入方法和一个新颖的两阶段自定义过程,用于针对生成图像中的特定概念进行微调,并使用多种自动度量标准和用户研究,验证了该方法的有效性。
May, 2023
我们提出了一种简单高效的数据增强训练策略,通过插入适配器层来引导扩散模型仅专注于对象身份,使得我们的模型具备控制每个生成个性化对象的位置和大小的能力,并提出了区域引导抽样技术来保持生成图像的质量和保真度。
Jun, 2023
通过对预训练文本到图像扩散模型中的文本嵌入进行微调,我们设计了一种低成本的解决方案,实现自然多概念文本到图像生成,并在扩散步骤中不增加附加的训练或推理成本。我们的方法通过收集与最相似的令牌的语义特征来定位贡献,并应用交叉令牌非极大值抑制来避免不同概念之间的特征混合,从而在文本到图像、图像操作和个性化任务中优于以前的方法。
Oct, 2023
该研究介绍了一种基于Gen4Gen的半自动数据集创建流程,并提出了一种综合指标以更好地量化多概念个性化文本到图像扩散方法的性能。研究通过改善数据质量和提示策略,将实现多概念个性化图像生成质量的显著提高,而无需对模型架构或训练算法进行任何修改。
Feb, 2024
我们提出了一种有效且快速的方法,可在不进行任何微调的情况下生成个性化图像,并保持扩散模型内在的文本到图像生成能力。通过操作原始扩散模型的交叉注意力和自注意力层,将自定义概念合并到生成图像中,以生成与文本描述相匹配的个性化图像。综合实验突出了我们方法的优越性。
Mar, 2024
我们提出了一种关注力校准机制,名为DisenDiff,通过学习可学习的修饰符来捕捉单个图像中的多个概念,并生成具有学习概念的新颖定制图像。我们展示了该方法在定性和定量评估上表现优于当前的最佳方法。此外,我们的技术还与LoRA和修复管道兼容,实现更多交互体验。
Mar, 2024
该论文介绍了一种在推导阶段用于组合定制化的文本到图像扩散模型的方法——Concept Weaver。该方法将过程分为两个步骤:创建与输入提示语义对齐的模板图像,然后使用概念融合策略个性化该模板。研究结果表明,与替代方法相比,我们的方法能够生成具有较高身份保真度的多个定制概念。此外,该方法能够无缝处理多个概念,并且在紧密遵循输入提示的语义含义时不会混合不同主题的外观。
Apr, 2024
使用AttenCraft方法,我们提出了一种基于注意力引导的多概念解缠方法,它使用了自注意力和交叉注意力图来生成精确的概念掩模,并在训练过程中应用于每个目标概念的交叉注意力激活,从而在图像对齐方面优于基线模型,并在文本对齐方面表现相当。
May, 2024
通过预训练的扩散模型,该论文提出了一个名为Unsupervised Concept Extraction (UCE)的新任务,旨在从包含多个概念的图像中提取和重建各个概念,并通过概念的定位和概念性标记之间的关联来实现该任务。
Jul, 2024