零样本引导图像合成的分层渲染扩散模型
本文提出了一种称为 LayerDiff 的分层协同扩散模型,专门用于文本引导的多层可组合图像合成,该模型能够生成与传统的整体图像生成方法相媲美的高质量多层图像,并实现了更广泛的可控生成应用,包括分层图像编辑和风格迁移。
Mar, 2024
该研究探讨了图像合成模型的细粒度、连续控制,提出了一种新的语义扩散引导统一框架,可以注入预训练的无条件扩散模型的语言或图像指导,并在 FFHQ 和 LSUN 数据集上进行了实验。
Dec, 2021
本文提出了一种新的引导图像合成框架,该框架通过将输出图像建模为受约束优化问题的解决方案来解决领域偏移问题。同时,本文还展示了通过定义基于交叉注意力的输入文本符号和用户笔画之间的对应关系,用户可以在不需要任何条件训练或微调的情况下控制不同绘制区域的语义。
Nov, 2022
本文提出了一种基于语义的分层控制图像编辑方法 ——LayerDiffusion,通过对大规模文本转图像模型的利用,结合分层控制优化策略和分层扩散训练,实现特定主题属性的非刚性编辑和属性修改,同时保持其独特的特征并无缝地融入新背景,而在扩散过程中采用迭代引导策略生成与文字描述相符的最终图像,在实验结果中发现 LayerDiffusion 能够生成高度一致、与给定文本描述密切符合的图像,同时保持与输入图像相似的特征,超越了当前领先的图像编辑方法,开启了图像编辑的新可能性。
May, 2023
通过使用预先训练的逆模型设计的损失,利用扩散模型的生成控制能力,我们引入了 Steered Diffusion,这是一个通用的框架,用于实现基于扩散模型的逼真零样本条件图像生成,以在推理时引导扩散模型的图像生成过程。我们的实验表明,与最先进的基于扩散的即插即用模型相比,我们的框架在多种任务上如修补、着色、文本引导的语义编辑和图像超分辨率方面有明显的定性和定量改进,同时增加了可忽略的额外计算成本。
Sep, 2023
通过对不同空间布局的场景渲染进行联合去噪,SceneDiffusion 方法的关键见解在于可以通过优化扩散采样过程中的分层场景表示来实现空间分离,从而生成支持移动、调整大小、克隆以及逐层外观编辑(包括目标重塑和替换)等广泛空间编辑操作的场景。此外,可以根据参考图像生成场景,从而实现对野外图像中的目标进行移动,该方法无需进行训练,与一般的文本 - 图像扩散模型兼容,并且响应时间少于一秒。
Apr, 2024
本文提出了 RenderDiffusion,这是第一个用于 3D 生成和推断的扩散模型,使用仅有的单眼 2D 监督进行训练,并采用新颖的图像去噪架构进行中间的三维表示,以提供强烈归纳结构,同时仅需要 2D 监督。我们在 FFHQ、AFHQ、ShapeNet 和 CLEVR 数据集上评估了 RenderDiffusion,展示了生成 3D 场景和从 2D 图像中推理 3D 场景的竞争性表现。此外,我们的扩散型方法还使我们能够使用 2D 修复来编辑 3D 场景。
Nov, 2022
本研究介绍了一种基于文本的图像编辑方法,利用最新的扩散模型对一些基于文本主题的地方图像进行编辑,通过结合扩散模型的速度和 Blended Diffusion,提高了编辑的效率,并通过优化方法来解决扩散模型无法完美重建图像的问题,实现了比当前方法更高的精度和速度
Jun, 2022
扩散模型为一种强大的生成模型,能够从纯噪声中生成高质量的图像。条件扩散模型通过简单的文本提示能够指定所需图像的内容,然而,仅仅基于文本提示无法对最终图像的构成和布局进行细致的控制,而这取决于初始噪声分布。本文探讨了两种改进方法,并演示了当这两种方法结合使用时可以获得更好的性能。
May, 2024
本文提出了一种基于文本引导扩散模型的 3D 场景生成、编辑和新视角合成方法,并重点讨论了 3D 一致性、本地编辑和单张图像训练等基础问题,取得了较好的效果。
Nov, 2022