Nov, 2023

Soulstyler:基于大型语言模型引导图像风格转换的目标对象

TL;DR通过简单的文本描述,我们提出了 “Soulstyler” 框架,让用户可以引导对特定物体进行图像风格化处理。我们介绍了一个大型语言模型来解析文本,识别风格化的目标和具体风格,并结合基于 CLIP 的语义视觉嵌入编码器,使模型能够理解并匹配文本和图像内容。同时,我们还引入了一种新颖的局部文本 - 图像块匹配损失函数,确保风格转换仅针对指定的目标对象,而非目标区域保持原始风格。实验结果表明,我们的模型能够根据文本描述准确进行目标对象的风格转换,而不影响背景区域的风格。