使用扩散模型对单张图像进行连续布局编辑
本文提出了一种基于语义的分层控制图像编辑方法 ——LayerDiffusion,通过对大规模文本转图像模型的利用,结合分层控制优化策略和分层扩散训练,实现特定主题属性的非刚性编辑和属性修改,同时保持其独特的特征并无缝地融入新背景,而在扩散过程中采用迭代引导策略生成与文字描述相符的最终图像,在实验结果中发现 LayerDiffusion 能够生成高度一致、与给定文本描述密切符合的图像,同时保持与输入图像相似的特征,超越了当前领先的图像编辑方法,开启了图像编辑的新可能性。
May, 2023
本文主要讨论了通过提出新的基于模型的引导和基于修正的微调方法,解决利用单张图片进行图像编辑时过拟合问题的挑战。在扩展的实验中证明了该方法的有效性。
Dec, 2022
本文提出了一种名为 LayoutDiffusion 的扩散模型,通过构建结构图像块来解决布局与图像的多模态融合的难点,并利用 Object-aware Cross Attention 实现相对精确的分区和位置敏感的空间信息控制,实现比现有方法更高的生成质量和更高的可控性。
Mar, 2023
提出了一种通过学习感知图片布局和感知文本共同来进行灵活的图片翻译的新方法,该方法在实验中具有最佳的风格和语义图片翻译效果,并且需要的时间最短。
Feb, 2023
本研究介绍了一种基于文本的图像编辑方法,利用最新的扩散模型对一些基于文本主题的地方图像进行编辑,通过结合扩散模型的速度和 Blended Diffusion,提高了编辑的效率,并通过优化方法来解决扩散模型无法完美重建图像的问题,实现了比当前方法更高的精度和速度
Jun, 2022
扩散模型为一种强大的生成模型,能够从纯噪声中生成高质量的图像。条件扩散模型通过简单的文本提示能够指定所需图像的内容,然而,仅仅基于文本提示无法对最终图像的构成和布局进行细致的控制,而这取决于初始噪声分布。本文探讨了两种改进方法,并演示了当这两种方法结合使用时可以获得更好的性能。
May, 2024
我们的研究引入了 MS-Diffusion 框架,用于基于布局指导的零样本图像个性化处理多主题,融合了引用令牌和特征重采样以保持细节的准确性,并通过跨主题注意力来实现各自主题条件对特定区域的影响,通过全面的定量和定性实验,证明该方法在图像和文本的准确性方面优于现有模型,推动个性化的文本到图像生成的发展。
Jun, 2024
本文提出了一种利用 Image Information Removal 模块来精准地去除原始图像中与颜色和纹理相关的信息,以更好地保存文本不相关内容并避免相同映射问题,从而实现文本到图像编辑的方法。我们的方法在三个基准数据集上达到了最佳的可编辑性 - 保真度的平衡,并且我们的编辑图像比 COCO 上的之前的艺术作品更受注释者的欢迎。
May, 2023