使用一手素描定制 StyleGAN
本文探讨了如何利用 Contrastive Language-Image Pre-training (CLIP) 模型,开发基于文本的 StyleGAN 图像操作界面。新方法不需要人工干预,通过文本提示即可对输入的潜在向量进行修改,并引入了潜在映射器,提高了文本驱动的操作效率。实验表明该方法非常有效。
Mar, 2021
通过 GAN Sketching 方法实现 GAN 模型的简化,即利用一个或若干草图改变 GAN 模型的权重,鼓励模型输出与用户草图匹配,同时保留原始模型的多样性和图像质量,实现了潜空间插值和图像编辑。
Aug, 2021
利用现代生成模型和多模态学习的组合潜能,本研究提出了一种完全自动化的框架,可对卫星图像上的目标进行检测。我们利用 CLIP(Contrastive Language-Image Pre-Training)的能力来将图像特征与文本描述相关联,并识别生成器网络中的神经元以构建即时目标检测器。
Oct, 2022
使用大规模对比性语言 - 图像预训练(Contrastive-Language-Image-Pre-training,CLIP)模型极具语义能力的特点,实现了使用文本提示来训练生成模型,无需看到图像的 “盲目” 图像生成方法。通过少量的训练,我们的方法不断适应多个具有不同样式和形状特征的领域,并维持对未来任务有吸引力的潜在空间属性。
Aug, 2021
本文介绍了一种基于预训练的 CLIP 文本 - 图像嵌入模型和 FCN 语义分割网络的图像风格转移框架,其中 Generative Artisan 解决了 CLIPstyler 的失败情况,并在肖像和包含人物的实景中获得了比 CLIPstyler 更好的定量和定性结果, 使得商业场景如修图图形软件成为可能。
Jul, 2022
在本文中,我们提出了一种新颖的对抗生成网络,可以准确地生成具有各种风格的逼真手绘草图,并通过定性和定量评估展示了我们在视觉质量、内容准确性和风格模仿方面的优势,其中应用于 SketchIME。
Jan, 2024
本文提出一种方法将 StyleGAN 和 CLIP 的预训练潜空间有效链接,从而能够自动从 StyleGAN 中提取语义标注的编辑方向,找到并命名有意义的编辑操作,而不需要任何额外的人类指导
Dec, 2021
本研究提出了一种采用统一 CLIP 空间变换的单次生成器适应方法,该方法采用基于 CLIP 导向的潜变量优化进行参考图像搜索,并使用新的损失功能进行生成器微调以实现 CLIP 空间一致性。此外,研究者还提出了一种面向 CLIP 空间的路径关系对比正则化方法,以进一步提高生成模型的效果。该方法能够有效地进行属性编辑且具有较好的实验结果。
Mar, 2022
本文提出了一种基于文本引导的全身人像图像合成框架,采用基于注意力机制的潜在代码映射器,实现了比现有映射器更多元化对 StyleGAN 的控制,并在推理时引入特征空间掩码机制来避免因文本输入导致的不良影响,经定量和定性评估,证明了我们的方法比现有方法更能忠实地控制生成的图像。
May, 2023
通过在 StyleGAN 的潜在空间中学习表示素描并生成医学图像,我们提出了一种实用的自由手绘到图像生成模型(Sketch2MedI)。与其他模型相比,我们的模型在生成咽部图像方面表现出卓越的性能,在各种指标上都具有高质量和逼真的效果。
Feb, 2024