本文介绍了一种基于预训练的 CLIP 文本 - 图像嵌入模型和 FCN 语义分割网络的图像风格转移框架,其中 Generative Artisan 解决了 CLIPstyler 的失败情况,并在肖像和包含人物的实景中获得了比 CLIPstyler 更好的定量和定性结果, 使得商业场景如修图图形软件成为可能。
Jul, 2022
通过使用文本输入代替语言风格参考图像的方式,创建一种通用的文本样式转移网络,能够在单次前向传递中对任意文本输入进行图像样式化处理,能够比 CLIPstyler 快约 1000 倍,且消除了一些不必要的图像失真问题,并可选用微调步骤以提高生成图像的质量。
Oct, 2022
提出了一种全新的神经风格迁移框架,使用户能够使用文本描述而非参考图像来实现图像的风格迁移,在实验中证实了通过使用多视图扩充的补丁式文本 - 图像匹配 Loss 来实现对内容图像的样式转移,从而实现了具有语义相似性的现实纹理风格转移。
Dec, 2021
本文探讨了如何利用 Contrastive Language-Image Pre-training (CLIP) 模型,开发基于文本的 StyleGAN 图像操作界面。新方法不需要人工干预,通过文本提示即可对输入的潜在向量进行修改,并引入了潜在映射器,提高了文本驱动的操作效率。实验表明该方法非常有效。
Mar, 2021
本文提出了一种新的基于语音指导的三维任意神经风格转移方法,通过改进方案解决了传统 2D 和 3D 方法不能解决的问题,匹配点云和语音的不同特征,并提高文本风格可辨别性,在多个场景下实现了高效的风格迁移。
May, 2023
通过简单的文本描述,我们提出了 “Soulstyler” 框架,让用户可以引导对特定物体进行图像风格化处理。我们介绍了一个大型语言模型来解析文本,识别风格化的目标和具体风格,并结合基于 CLIP 的语义视觉嵌入编码器,使模型能够理解并匹配文本和图像内容。同时,我们还引入了一种新颖的局部文本 - 图像块匹配损失函数,确保风格转换仅针对指定的目标对象,而非目标区域保持原始风格。实验结果表明,我们的模型能够根据文本描述准确进行目标对象的风格转换,而不影响背景区域的风格。
Nov, 2023
通过基于文本提示的风格转换为图像创造性地进行样式化铺平了一条新的道路,然而当前的先进方法未解决用户对样式化的精细控制以及对区域样式化控制的需求,为此,我们提出了一种新的方法 MOSAIC,可以通过从输入提示中提取的上下文对图像中的不同对象应用样式,通过基于视觉转换器架构的基于文本的分割和样式化模块,我们的方法能够扩展到任意对象和样式,并产生与当前先进方法相比质量更高的图像,我们的方法通过定性和定量分析验证了其效果,并展示了其能够生成外观吸引人的样式化图像、对样式化具有增强控制能力并能够推广到未见过的对象类别。
Sep, 2023
通过 SemStyle 模型,利用自然语言处理技术和语义框架生成语义和风格相符且与图片语义相关的题注,为从丰富的网络语言数据中学习更丰富的图像描述提供可能性。
May, 2018
本文提出了一种基于 StyleGAN2 模型和 CLIP prompts 的自动图像分割方法,可以发现意义明确且一致的语义类群,从而创建合成数据集进行训练,并在公开数据集上展示了最新的结果。
Jul, 2021
通过结合 StyleGAN 生成器和 CLIP 语义编码器,我们提出了一种崭新的混合算子,能够同时在两个潜在空间中添加高级特征并保证标识符的保存,进而实现了高水平的特征传递并不依赖于面部识别网络的本质转移。
Oct, 2021