StyleMC: 基于多通道快速文字引导的图像生成和操作
本文探讨了如何利用 Contrastive Language-Image Pre-training (CLIP) 模型,开发基于文本的 StyleGAN 图像操作界面。新方法不需要人工干预,通过文本提示即可对输入的潜在向量进行修改,并引入了潜在映射器,提高了文本驱动的操作效率。实验表明该方法非常有效。
Mar, 2021
提出了 TextCLIP,这是一个统一的框架,用于无对抗训练的文本引导的图像生成和操作,通过对 Contrastive Language-Image Pre-training (CLIP) 的文本图像表示能力和 StyleGAN 的生成能力的结合,能够生成高达 1024×1024 分辨率的图像,并在 Multi-modal CelebA-HQ 数据集上取得了优于现有最先进方法的结果。
Sep, 2023
提出了一种新的方法用于基于文本指导的图像风格操作,构建了一个字典来实现效果,已有方法存在很多的局限性,自己提出的方法可以同时处理多个通道间的互动关系,提高能发现未知方向的能力,同时保持了实时性和分离度。
Feb, 2023
通过 Contrastive-Language-Image- Pretraining (CLIP) 进行对抗操作,利用预定义的 CLIP 空间方向指导编辑,并将文本嵌入显式地转换为潜在空间,以实现准确的编码和编辑。
Jul, 2022
本文提出了一种新的基于文本的图像编辑方法 CLIPInverter,通过在预训练的 GAN 反演网络中集成轻量级文本适配器层,以目标描述的 CLIP 嵌入为条件进行初始反演步骤的条件化,通过使用 CLIP 引导的细化步骤来对结果残留潜在编码进行更正,从而实现了高效稳定地进行多属性更改,因此在各个领域,包括人类脸部,猫和鸟类方面,我们的方法在操作精度和真实度方面均表现优异。
Jul, 2023
该研究提出了一种名为 DiffusionCLIP 的新方法,该方法使用扩散模型进行文本驱动的图像操作,比现有基线表现更为优异,并允许简便的多属性操作。
Oct, 2021
本文提出了一种基于文本引导的全身人像图像合成框架,采用基于注意力机制的潜在代码映射器,实现了比现有映射器更多元化对 StyleGAN 的控制,并在推理时引入特征空间掩码机制来避免因文本输入导致的不良影响,经定量和定性评估,证明了我们的方法比现有方法更能忠实地控制生成的图像。
May, 2023
提出一个两阶段模型,先用 prior 生成 CLIP 图像嵌入,再由 decoder 在图像嵌入的条件下生成图像。实验表明该模型可以提高图像的多样性,并在完美保留语义和风格前提下变化非必要的细节。利用扩散模型作为 decoder, 同时使用自回归和扩散模型作为 prior,发现后者更加高效且产生的样本更优。
Apr, 2022
本研究提出了一个名为 MAGIC 的无需训练的框架,它能够将视觉控制插入文本生成过程中,并使 LM 在零样本情况下执行多模态任务,如图像字幕生成。在零样本图像字幕生成方面,MAGIC 在几乎 27 倍的解码加速度下,极大地超越了现有的最先进方法。
May, 2022
提出了一个 CLIP 引导的文本生成对抗网络 (CgT-GAN) 模型,通过引入图像数据进行训练,结合语义指导奖励 (CLIP-based reward) 和生成文本的自然度奖励来生成与外部语料库相似的文字。在实验证明,CgT-GAN 在各项指标上明显优于现有的最先进方法。
Aug, 2023