CLIP2StyleGAN:无监督提取 StyleGAN 编辑方向
我们提出了一种高效的图像嵌入算法,通过将图像嵌入StyleGAN的潜在空间,实现了可以应用于现有照片的语义图像编辑操作,从而得出了关于探究StyleGAN潜在空间结构的有价值洞见,并提出一系列实验来测试嵌入哪些图像类别、如何嵌入、哪些潜在空间适合嵌入以及嵌入是否具有语义意义。
Apr, 2019
本文介绍了一种基于 StyleGAN 的语义编辑方法,可以局部移植另一张图像的特征,而不需要额外的监督或复杂的操作,实现了对 GAN 图像的语义编辑,并提高了图像的真实感。
Apr, 2020
通过对预先训练在多个数据集上的模型进行分析,本文探讨和分析了StyleGAN2的潜在样式空间,发现StyleSpace的通道式样式参数空间显著比前人的其他中间潜变空间更具解开性,提出了一种通过StyleSpace控制实现更好的视觉属性解开性的方法,最终展示了应用StyleSpace控制实现对真实图像的操作,为通过简单而直观的接口实现具有语义意义的、良好解开的图像操作铺平了道路。
Nov, 2020
本文探讨了如何利用 Contrastive Language-Image Pre-training (CLIP) 模型,开发基于文本的 StyleGAN 图像操作界面。新方法不需要人工干预,通过文本提示即可对输入的潜在向量进行修改,并引入了潜在映射器,提高了文本驱动的操作效率。实验表明该方法非常有效。
Mar, 2021
通过训练一个生成器来分别对局部语义部分进行建模,控制不同区域的纹理并且实现更加细粒度的合成和编辑,SemanticStyleGAN作为具有内置解缠结的通用先验模型,可以促进基于GAN的应用程序的发展并实现更多的下游任务。
Dec, 2021
FLAME是一种使用少量监督来进行操纵编辑方向的简单而有效的框架,可通过操纵潜在空间来实现高度可控的图像编辑。同时,还提出了属性样式操作的新任务,以生成具有不同属性样式的多样化图像。
Jul, 2022
引入了一种新的方法,可以从预训练的CLIP和StyleGAN中高效创建文本到图像模型,无需外部数据或微调。通过训练一个基于CLIP嵌入的扩散模型以对预先训练的StyleGAN的潜在向量进行采样,我们称之为clip2latent,利用CLIP图像和文本嵌入之间的对齐来避免需要任何文本标记数据来训练条件扩散模型。展示了clip2latent使我们能够根据文本提示生成高分辨率(1024x1024像素)的图像,并具有快速采样,高图像质量和低训练计算和数据要求。还展示了使用经过充分研究的StyleGAN架构,无需进一步微调,就可以直接应用现有方法来控制和修改生成的图像,为我们的文本到图像流水线添加了进一步的控制层面。
Oct, 2022
我们提出了一种使用 SVM 在 StyleGAN 和 CLIP 空间自适应构建编辑方向的方法,将大规模图像语料库中与文本指令相似的图像通过 CLIP 相似性检索,用 SVM 训练正负图像分类器将编辑方向表示为 CLIP 空间中的法向量,并验证其性能与 StyleCLIP 基准一致,而且不会增加计算时间。
Apr, 2023
本文提出了一种新的基于文本的图像编辑方法CLIPInverter,通过在预训练的GAN反演网络中集成轻量级文本适配器层,以目标描述的CLIP嵌入为条件进行初始反演步骤的条件化,通过使用CLIP引导的细化步骤来对结果残留潜在编码进行更正,从而实现了高效稳定地进行多属性更改,因此在各个领域,包括人类脸部,猫和鸟类方面,我们的方法在操作精度和真实度方面均表现优异。
Jul, 2023
通过在CLIP DeltaSpace中映射CLIP视觉特征差异和对应文本描述的CLIP文本特征差异,我们提出了DeltaEdit框架,实现了灵活的文本引导图像编辑。
Oct, 2023