基于图像 CLIP 引导的本质迁移
本文介绍了一种基于预训练的 CLIP 文本 - 图像嵌入模型和 FCN 语义分割网络的图像风格转移框架,其中 Generative Artisan 解决了 CLIPstyler 的失败情况,并在肖像和包含人物的实景中获得了比 CLIPstyler 更好的定量和定性结果, 使得商业场景如修图图形软件成为可能。
Jul, 2022
本文探讨了如何利用 Contrastive Language-Image Pre-training (CLIP) 模型,开发基于文本的 StyleGAN 图像操作界面。新方法不需要人工干预,通过文本提示即可对输入的潜在向量进行修改,并引入了潜在映射器,提高了文本驱动的操作效率。实验表明该方法非常有效。
Mar, 2021
本文提出一种方法将 StyleGAN 和 CLIP 的预训练潜空间有效链接,从而能够自动从 StyleGAN 中提取语义标注的编辑方向,找到并命名有意义的编辑操作,而不需要任何额外的人类指导
Dec, 2021
本文提出了一种基于扩散的非监督图像转换方法,使用分离的风格和内容表征,并使用 ViT 模型中的中间键提取多头自注意层作为内容保存损失,并匹配文本驱动风格转移的 [CLS] 分类令牌,同时使用额外的 CLIP 损失,实验结果表明,该方法在文本引导和图像引导的转换任务中优于现有的基准模型。
Sep, 2022
通过将风格转移任务分解为风格、空间结构和语义内容三个核心元素,本研究提出了 InstantStyle-Plus,一种注重原始内容完整性同时无缝整合目标风格的方法。通过有效的、轻量级的风格注入过程,并利用先进的 InstantStyle 框架,实现风格注入。为了增强内容保护,我们使用倒置的内容潜噪声和多功能的接插件式 ControlNet 来保持原始图像的内在布局。此外,还引入了全局语义适配器以增强语义内容的保真度,并使用风格提取器作为鉴别器提供辅助风格引导。
Jun, 2024
本文提出了一种新的基于文本的图像编辑方法 CLIPInverter,通过在预训练的 GAN 反演网络中集成轻量级文本适配器层,以目标描述的 CLIP 嵌入为条件进行初始反演步骤的条件化,通过使用 CLIP 引导的细化步骤来对结果残留潜在编码进行更正,从而实现了高效稳定地进行多属性更改,因此在各个领域,包括人类脸部,猫和鸟类方面,我们的方法在操作精度和真实度方面均表现优异。
Jul, 2023
提出了一种全新的神经风格迁移框架,使用户能够使用文本描述而非参考图像来实现图像的风格迁移,在实验中证实了通过使用多视图扩充的补丁式文本 - 图像匹配 Loss 来实现对内容图像的样式转移,从而实现了具有语义相似性的现实纹理风格转移。
Dec, 2021
提出了一种基于全局前景损失和全局背景损失的 Semantic CLIPStyler 框架用于实现语义风格迁移,结果优于基于 CLIPStyler 的框架。
Jul, 2023
通过 Contrastive-Language-Image- Pretraining (CLIP) 进行对抗操作,利用预定义的 CLIP 空间方向指导编辑,并将文本嵌入显式地转换为潜在空间,以实现准确的编码和编辑。
Jul, 2022
本文提出了一种基于 StyleGAN2 模型和 CLIP prompts 的自动图像分割方法,可以发现意义明确且一致的语义类群,从而创建合成数据集进行训练,并在公开数据集上展示了最新的结果。
Jul, 2021