本文提出了一种新的文本到图像算法,通过在扩散模型中加入显式的空间 - 时间交叉注意力控制,利用布局预测器和空间注意力控制相结合,实现优化组合权重的方式,从而生成与文本更高保真的图像。
Apr, 2023
本文提出了一种基于预测的物体框的注意力掩码控制策略,以解决文本到图像合成模型在语义上的局限性,尤其是属性泄漏、实体泄漏和缺失实体,该方法通过约束查询语句中每个标记的注意区域来实现更准确的语义综合,此外,该方法简单而有效,可以轻松集成到现有的跨注意力扩散 T2I 生成器中,并成功地在生成内容中传达了原始文本的语义,并作为可用的插件得到了高可用性的证明。
May, 2023
本研究揭示了扩散模型中隐藏的丰富多模态知识的一种新方法,用于分割任务。
Sep, 2023
本文介绍了一种新的简单而实用的任务设置:局部控制,它通过用户定义的图像条件在特定的局部区域进行控制,其余区域仅通过原始文本提示进行调节。我们提出了一种无需训练的方法,利用去噪过程中噪声潜变量和参数的更新,在交互注意力图中促进非控制区域的概念生成。此外,我们使用特征屏蔽约束解决局部控制区域内外信息差异导致的合成图像质量下降问题。广泛的实验表明,我们的方法可以在局部控制条件下合成出高质量的图像。
Dec, 2023
优化了扩散模型中文本和图像的一致性,通过引入自适应掩码调整文本令牌对图像特征的贡献,提高了合成图像的质量。
我们提出了一种注意力调节方法,通过实时优化来对齐注意力图与输入文本提示,从而解决扩散模型中对某些令牌过分关注而导致语义逼真度下降的问题。在各种数据集、评估指标和扩散模型上进行了实验比较,结果表明我们的方法在减少计算开销的同时,始终优于其他基准方法,生成的图像更加忠实地反映了所需的概念。
Mar, 2024
研究使用空间特征和自我关注来实现生成图片结构的微调,并将其用于文本到图像合成中,从而实现图像到图像转换。
Nov, 2022
该论文提出了一种使用开放词汇场景控制的文本到图像生成方法 SpaText,基于 CLIP 的空间 - 文本表示方法,通过支持自由形式的自然语言描述的感兴趣区域的分割图来控制场景的布局和不同区域对象的形状。此外,该论文还提供了几种自动评估指标,并使用它们以及 FID 指标和用户研究来评估其方法,在具有自由形式文本场景控制的图像生成方面实现了最先进的结果。
该研究探讨了图像合成模型的细粒度、连续控制,提出了一种新的语义扩散引导统一框架,可以注入预训练的无条件扩散模型的语言或图像指导,并在 FFHQ 和 LSUN 数据集上进行了实验。
Dec, 2021
本文提出了一种新的引导图像合成框架,该框架通过将输出图像建模为受约束优化问题的解决方案来解决领域偏移问题。同时,本文还展示了通过定义基于交叉注意力的输入文本符号和用户笔画之间的对应关系,用户可以在不需要任何条件训练或微调的情况下控制不同绘制区域的语义。