StyleCLIP: 基于文本的 StyleGAN 图像操作
通过对预先训练在多个数据集上的模型进行分析,本文探讨和分析了StyleGAN2的潜在样式空间,发现StyleSpace的通道式样式参数空间显著比前人的其他中间潜变空间更具解开性,提出了一种通过StyleSpace控制实现更好的视觉属性解开性的方法,最终展示了应用StyleSpace控制实现对真实图像的操作,为通过简单而直观的接口实现具有语义意义的、良好解开的图像操作铺平了道路。
Nov, 2020
本文研究 StyleGAN 的潜在空间,提出了两个设计编码器的原则,以平衡畸变 - 可操作性和畸变 - 知觉的权衡,从而为真实图片的编辑提供了更好的方法。
Feb, 2021
本篇论文通过探究 StyleGAN 的空间特性,提出使用预训练的 StyleGAN 加一些操作就可以进行图像处理和编辑任务,并且在各项任务上表现可以与现有最先进技术媲美的方法。
Nov, 2021
本文提出了一种快速高效的以文本驱动的图像生成和操控方法——StyleMC,利用CLIP的loss和identity loss进行图像操控,不需要工程设计,仅需少量文本prompt训练即可找到稳定的全局direction,比之前的方法更加高效
Dec, 2021
引入了一种新的方法,可以从预训练的CLIP和StyleGAN中高效创建文本到图像模型,无需外部数据或微调。通过训练一个基于CLIP嵌入的扩散模型以对预先训练的StyleGAN的潜在向量进行采样,我们称之为clip2latent,利用CLIP图像和文本嵌入之间的对齐来避免需要任何文本标记数据来训练条件扩散模型。展示了clip2latent使我们能够根据文本提示生成高分辨率(1024x1024像素)的图像,并具有快速采样,高图像质量和低训练计算和数据要求。还展示了使用经过充分研究的StyleGAN架构,无需进一步微调,就可以直接应用现有方法来控制和修改生成的图像,为我们的文本到图像流水线添加了进一步的控制层面。
Oct, 2022
提出了一种新的方法用于基于文本指导的图像风格操作,构建了一个字典来实现效果,已有方法存在很多的局限性,自己提出的方法可以同时处理多个通道间的互动关系,提高能发现未知方向的能力,同时保持了实时性和分离度。
Feb, 2023
我们提出了一种使用 SVM 在 StyleGAN 和 CLIP 空间自适应构建编辑方向的方法,将大规模图像语料库中与文本指令相似的图像通过 CLIP 相似性检索,用 SVM 训练正负图像分类器将编辑方向表示为 CLIP 空间中的法向量,并验证其性能与 StyleCLIP 基准一致,而且不会增加计算时间。
Apr, 2023
本文提出了一种基于文本引导的全身人像图像合成框架,采用基于注意力机制的潜在代码映射器,实现了比现有映射器更多元化对StyleGAN的控制,并在推理时引入特征空间掩码机制来避免因文本输入导致的不良影响,经定量和定性评估,证明了我们的方法比现有方法更能忠实地控制生成的图像。
May, 2023
本文提出了一种新的基于文本的图像编辑方法CLIPInverter,通过在预训练的GAN反演网络中集成轻量级文本适配器层,以目标描述的CLIP嵌入为条件进行初始反演步骤的条件化,通过使用CLIP引导的细化步骤来对结果残留潜在编码进行更正,从而实现了高效稳定地进行多属性更改,因此在各个领域,包括人类脸部,猫和鸟类方面,我们的方法在操作精度和真实度方面均表现优异。
Jul, 2023
提出了TextCLIP,这是一个统一的框架,用于无对抗训练的文本引导的图像生成和操作,通过对Contrastive Language-Image Pre-training (CLIP)的文本图像表示能力和StyleGAN的生成能力的结合,能够生成高达1024×1024分辨率的图像,并在Multi-modal CelebA-HQ数据集上取得了优于现有最先进方法的结果。
Sep, 2023