针对可控图像生成的空间感知潜变量初始化
使用预先收集的、具有语义信息的像素块,通过多个初始噪声进行初始图像构建,以增强对图像生成的控制。实验结果显示了初始图像构建在引导生成图像内容方面的适应性,并在无需训练的布局到图像合成任务中取得了最先进的性能。
Dec, 2023
通过深入研究视频扩散模型的噪声初始化,我们发现了一种训练与推理之间的隐式差距,为此我们提出了一种名为 FreeInit 的简洁而有效的推理采样策略,显著提高了扩散模型生成的视频的时间一致性。
Dec, 2023
用不需要额外的训练的方法,通过交叉关注地图和掩膜引导实现文本到图像生成的空间控制。实验结果表明,所提出的方法在定性和定量上比基线方法实现了更准确的空间控制。
Aug, 2023
扩散模型为一种强大的生成模型,能够从纯噪声中生成高质量的图像。条件扩散模型通过简单的文本提示能够指定所需图像的内容,然而,仅仅基于文本提示无法对最终图像的构成和布局进行细致的控制,而这取决于初始噪声分布。本文探讨了两种改进方法,并演示了当这两种方法结合使用时可以获得更好的性能。
May, 2024
本文提出了一种新的文本到图像算法,通过在扩散模型中加入显式的空间 - 时间交叉注意力控制,利用布局预测器和空间注意力控制相结合,实现优化组合权重的方式,从而生成与文本更高保真的图像。
Apr, 2023
使用文本生成图像的方法已显著提高了生成图像建模的状态,通过结合自然语言界面和空间控制,在本文中,我们考虑了与图像画布上特定位置对象相关的文本生成图像的问题,并提出了 ZestGuide,这是一种零 - shot 分割指导方法,可插入预先训练的文本到图像扩散模型中,我们的实验结果表明,在精准对齐所需的输入分割的情况下,与使用相应分割进行训练的组件相比,提高了图像质量,而在 COCO 数据集上,我们的结果比 Paint with Words 更好。
Jun, 2023
通过稳定的扩散实验,我们发现初始图像中的像素块倾向于生成特定的内容,我们通过修改它们可以显著影响生成的图像,这种影响只影响特定的区域,而不影响其他区域,这对于重绘任务非常有用。我们发现像素块的生成偏好主要由其值而不是位置决定,通过将具有生成用户所需内容倾向的像素块移动到用户指定的区域,我们的方法在布局到图像生成方面实现了最先进的性能,我们的结果凸显了初始图像操作在控制生成图像方面的灵活性和能力。
May, 2023
本研究旨在解决生成图像与提供的提示之间的无缝对齐问题,通过引入 “初始噪声优化”(InitNO)方法,通过评估初始噪声,并通过噪声优化来生成符合文本提示的图像。
Apr, 2024
提出了一种通过学习感知图片布局和感知文本共同来进行灵活的图片翻译的新方法,该方法在实验中具有最佳的风格和语义图片翻译效果,并且需要的时间最短。
Feb, 2023
通过提示文本控制生成的图像在空间布局方面存在问题,因此我们提出了一种名为布局引导技术的新方法,该方法可以改进模型的交叉注意层,以实现所需的重建方向,并成功进行了定量和定性的实验验证与扩展。
Apr, 2023