CLIPstyler:使用单一文本条件进行图像风格转移
通过使用文本输入代替语言风格参考图像的方式,创建一种通用的文本样式转移网络,能够在单次前向传递中对任意文本输入进行图像样式化处理,能够比 CLIPstyler 快约 1000 倍,且消除了一些不必要的图像失真问题,并可选用微调步骤以提高生成图像的质量。
Oct, 2022
本文提出了一种新的基于语音指导的三维任意神经风格转移方法,通过改进方案解决了传统 2D 和 3D 方法不能解决的问题,匹配点云和语音的不同特征,并提高文本风格可辨别性,在多个场景下实现了高效的风格迁移。
May, 2023
本研究通过文本描述实现了基于文本条件的风格转换,评估了文本条件图像编辑和风格转换技术对精确 “局部” 风格转换的细粒度理解,发现当前方法在有效完成局部风格转换方面存在问题。因此,我们设计了一个端到端的流程,根据用户的意图,确保局部风格转换的有效性,并通过定量和定性分析证明了我们方法的有效性。
May, 2024
本文介绍了一种基于预训练的 CLIP 文本 - 图像嵌入模型和 FCN 语义分割网络的图像风格转移框架,其中 Generative Artisan 解决了 CLIPstyler 的失败情况,并在肖像和包含人物的实景中获得了比 CLIPstyler 更好的定量和定性结果, 使得商业场景如修图图形软件成为可能。
Jul, 2022
提出了一种基于全局前景损失和全局背景损失的 Semantic CLIPStyler 框架用于实现语义风格迁移,结果优于基于 CLIPStyler 的框架。
Jul, 2023
本文探讨了如何利用 Contrastive Language-Image Pre-training (CLIP) 模型,开发基于文本的 StyleGAN 图像操作界面。新方法不需要人工干预,通过文本提示即可对输入的潜在向量进行修改,并引入了潜在映射器,提高了文本驱动的操作效率。实验表明该方法非常有效。
Mar, 2021
通过简单的文本描述,我们提出了 “Soulstyler” 框架,让用户可以引导对特定物体进行图像风格化处理。我们介绍了一个大型语言模型来解析文本,识别风格化的目标和具体风格,并结合基于 CLIP 的语义视觉嵌入编码器,使模型能够理解并匹配文本和图像内容。同时,我们还引入了一种新颖的局部文本 - 图像块匹配损失函数,确保风格转换仅针对指定的目标对象,而非目标区域保持原始风格。实验结果表明,我们的模型能够根据文本描述准确进行目标对象的风格转换,而不影响背景区域的风格。
Nov, 2023
提出了一种名为 StyleCLIPDraw 的方法,用于根据文本描述和指定样本图片生成符合特定风格的图像,该方法改进了当前机器学习技术在图像生成方面的不足,并强调了图像的艺术风格对人们的重要性。
Feb, 2022
通过基于文本提示的风格转换为图像创造性地进行样式化铺平了一条新的道路,然而当前的先进方法未解决用户对样式化的精细控制以及对区域样式化控制的需求,为此,我们提出了一种新的方法 MOSAIC,可以通过从输入提示中提取的上下文对图像中的不同对象应用样式,通过基于视觉转换器架构的基于文本的分割和样式化模块,我们的方法能够扩展到任意对象和样式,并产生与当前先进方法相比质量更高的图像,我们的方法通过定性和定量分析验证了其效果,并展示了其能够生成外观吸引人的样式化图像、对样式化具有增强控制能力并能够推广到未见过的对象类别。
Sep, 2023
我们提出了一种新颖的方法来将文本图像的内容与其外观的所有方面分离开来,然后将所得到的外观表示应用于新的内容,以将源样式一次性转移给新的内容。我们通过自监督学习的方式学习了这种分离过程。我们的方法可以处理整个字块,无需将文本从背景分割开,也不需要按字符处理或对字符串长度进行假设。我们在不同的文本领域展示了结果,这些结果以前需要使用专门的方法,例如场景文本、手写文本。
Jun, 2021