TexSliders: 基於 CLIP 空間的擴散式紋理編輯
本文介绍了一种基于自然语言描述和兴趣区域掩码进行本地(面向区域的)在通用自然图像中进行编辑的解决方案,利用 CLIP 预训练语言 - 图像模型指导编辑并使用扩散概率模型生成自然外观结果,以及应用扩散过程的增强进行抗击对抗攻击;通过在多个基线和相关方法上的定量和定性比较,表明该方法在整体逼真度、保护背景和匹配文本方面均优于现有解决方案,并展示了多种文本驱动的编辑应用,如添加新对象,删除 / 替换 / 修改现有对象,背景替换和图像推理。
Nov, 2021
本研究探讨了扩散模型在文本条件下生成图像的问题,并比较了不同的指导策略:CLIP 指导和无分类器指导。 结果发现对于照片逼真度和字幕相似性,后者更受人类评估人员的青睐,还可以进行图像修复。
Dec, 2021
该研究提出了一种名为 DiffusionCLIP 的新方法,该方法使用扩散模型进行文本驱动的图像操作,比现有基线表现更为优异,并允许简便的多属性操作。
Oct, 2021
本文提出了一种基于条件扩散模型的语义图像编辑方法 DiffEdit,能够自动生成需要编辑的图像区域的遮罩,并利用潜在推理保留感兴趣区域的内容,该方法在 ImageNet 数据集上实现了最先进的编辑表现。
Oct, 2022
图像编辑以满足用户特定需求为目标,近年来作为人工智能生成内容 (AIGC) 领域的一项有前景且具有挑战性的研究得到广泛关注。本篇综述针对利用文本转图像扩散模型进行多模态引导的图像编辑技术进行了全面回顾,介绍了综合的图像编辑范畴、各种控制信号和编辑场景,提出了一个统一的框架来规范编辑过程,并分成两个主要算法体系,为用户实现特定目标提供了一个设计空间。另外,对于基于训练的方法,我们讨论了它们的特点和适用场景,并介绍了在不同场景下源图像注入的方案。此外,我们还回顾了将二维技术应用于视频编辑,并突出了解决帧间不一致问题的解决方案。最后,我们讨论了该领域面临的开放性挑战,并提出了潜在的未来研究方向。
Jun, 2024
我们提出了一种使用 SVM 在 StyleGAN 和 CLIP 空间自适应构建编辑方向的方法,将大规模图像语料库中与文本指令相似的图像通过 CLIP 相似性检索,用 SVM 训练正负图像分类器将编辑方向表示为 CLIP 空间中的法向量,并验证其性能与 StyleCLIP 基准一致,而且不会增加计算时间。
Apr, 2023
本文介绍一种基于高度个性化文本嵌入的简单而高效的方法,通过分解 CLIP 嵌入空间来实现个性化和内容操作,并且仅需要一个图像和目标文本即可实现背景、纹理和动态的操作和编辑。
Mar, 2023
本文提出了一种基于语义的分层控制图像编辑方法 ——LayerDiffusion,通过对大规模文本转图像模型的利用,结合分层控制优化策略和分层扩散训练,实现特定主题属性的非刚性编辑和属性修改,同时保持其独特的特征并无缝地融入新背景,而在扩散过程中采用迭代引导策略生成与文字描述相符的最终图像,在实验结果中发现 LayerDiffusion 能够生成高度一致、与给定文本描述密切符合的图像,同时保持与输入图像相似的特征,超越了当前领先的图像编辑方法,开启了图像编辑的新可能性。
May, 2023
我们提出了 DiffEditor 方法,利用图像提示和文本提示来改善细粒度的图像编辑,通过在扩散采样中引入局部组合的随机微分方程 (SDE),梯度引导和时间旅行策略,我们的方法在各种细粒度图像编辑任务中取得了最先进的性能。
Feb, 2024