通过解释扩散模型为基于能量的模型,在训练和测试阶段中将一组扩散模型组合在一起,结构化生成,该方法可用于合成预训练的文本指导的扩散模型并生成生动逼真的图像,解决了 DALLE-2 在对象属性方面的困难。
Jun, 2022
TokenCompose 是一种用于文本到图像生成的潜在扩散模型,通过在微调阶段引入图像内容和对象分割映射之间的标记一致性项,改善多类别实例组合,并提高生成图像的逼真度。
Dec, 2023
该论文介绍了一种名为 Composite Diffusion 的方法,该方法允许艺术家通过自由形式的分段布局来生成高质量图像,以此来实现对图像生成的更大的空间、语义和创造性控制。
Jul, 2023
通过提出的 fine-tuning 方法 TextCraftor,我们可以增强 Stable Diffusion 使用的 CLIP 文本编码器,从而在定量基准和人类评估方面实现了显著改进,并且我们的技术还通过不同奖励的细调文本编码器的插值使得可以进行可控的图像生成,同时我们也证明了 TextCraftor 与 UNet finetuning 可以相互独立并且结合以进一步提高生成质量。
Mar, 2024
现有的文本到图像生成模型在不同语境中生成相同外观的对象方面存在困难,本论文介绍了一种名为 ObjectComposer 的方法,通过不修改底层模型的权重,训练了一种无需 fine-tuning 的方法,可一次生成多个特定对象的组合。
Oct, 2023
我们提出了一种简单高效的数据增强训练策略,通过插入适配器层来引导扩散模型仅专注于对象身份,使得我们的模型具备控制每个生成个性化对象的位置和大小的能力,并提出了区域引导抽样技术来保持生成图像的质量和保真度。
Jun, 2023
研究使用空间特征和自我关注来实现生成图片结构的微调,并将其用于文本到图像合成中,从而实现图像到图像转换。
Nov, 2022
图像合成的目标是将前景对象与背景图像合并以获取逼真的合成图像。最近,基于大型预训练扩散模型的生成式合成方法由于其前所未有的图像生成能力而得到发展。然而,生成的结果往往会丢失前景细节并出现明显的伪影。在本文中,我们提出了一种名为 DreamCom 的尴尬简单方法,灵感来自 DreamBooth。具体来说,给定一个主题的几个参考图像,我们通过微调文本导向修复扩散模型来将该主题与特殊标记相关联,并在指定的边界框内修复该主题。我们还构建了一个专门为此任务设计的新数据集 MureCom。
Sep, 2023
通过 prompt 学习,我们提出了一种学习扩散模型适当文本描述的框架,通过利用预训练扩散模型导出的质量指导和语义指导,我们的方法可以有效地学习提示,从而提高输入文本和生成图像之间的匹配。通过广泛的实验和分析,验证了所提方法的有效性。
Jan, 2024
本文提出了一种新的交互式图像生成方案,以定位细粒度为目标,评价了生成模型控制位置的能力,并在图像质量和控制能力方面均表现出超过最先进方法的效果。
Apr, 2023