扩散模型中的风格相似度测量
最近的文本到图像生成模型(如稳定扩散)非常擅长模仿和生成受版权保护的内容,这引起了艺术家们的担忧,他们担心自己的独特风格可能会被不当复制。为了解决这个问题,本文将 “艺术版权侵权” 问题重新定义为对图像集进行分类问题,而不是探究图像间的相似性。我们首先介绍了 ArtSavant,这是一个实用的工具,通过与由 WikiArt 策展的 372 位艺术家作品组成的参考数据集进行比较,可以确定艺术家的独特风格,并识别其是否出现在生成的图像中。我们利用两种互补的方法对图像集进行艺术风格分类,包括 TagMatch,这是一种新颖且可解释的方法,更适合非技术相关的利益相关者(艺术家、律师、法官等)广泛使用。利用 ArtSavant 进行大规模实证研究,以量化的方式揭示了三种流行的文本到图像生成模型中艺术风格被复制的普遍情况。在包括许多著名艺术家在内的大量艺术家的数据集中,仅有 20%的艺术家的风格有被当今流行的文本到图像生成模型简单指令提示复制的风险。
Apr, 2024
本文提出了一种基于单张画作的有学习能力的文字描述的艺术风格逆推算法(InST),能够高效地捕捉并转移绘画作品的艺术风格,且经过在多个艺术家和艺术风格的多幅画作上测试验证了其质量和效率。
Nov, 2022
现代扩散模型在人工智能图像生成中处于领先地位。本研究发现,这种成功部分归因于在互联网规模的数据上进行训练,其中包括版权作品。研究通过使用 CLIP 编码器进行艺术家的模仿,验证模型是否能够成功模仿人类艺术家。
Jul, 2023
提出了一种新的任务,文本驱动的风格化图像生成,以进一步增强内容创造中的可编辑性,通过升级经过训练的文本到图像模型与可训练的调制网络,同时引入扩散样式和内容正则化,实现了高质量的风格化文本到图像生成。
Nov, 2023
通过介绍 Artbreeder 上由 95K 用户生成的 680 万图片和 180 万提示的全面数据集,我们引入了一系列任务来识别多样的艺术风格、生成个性化内容并根据用户兴趣推荐风格。通过记录超越传统类别如 'cyberpunk' 或 'Picasso' 的独特用户生成风格,我们探索了用户全球集体创造心理的潜能。我们还评估了不同的个性化方法以增强艺术表达,并引入了一个风格地图集,以公共用户的方式呈现这些模型。我们的研究展示了文本到图像扩散模型发现和推广独特艺术表达的潜能,进一步使 AI 在艺术中具有民主化,促进更加多样和包容的艺术社区。数据集、代码和模型可以在此 https URL 获取,采用公共领域(CC0)许可证。
Jun, 2024
本文提出了一种新的方法,结合使用预训练的图像文本扩散模型和基于生成对抗网络的 3D 生成网络,用于生成高质量,风格化的 3D 头像,并在视觉质量和多样性方面优于现有最先进的方法。
May, 2023
本文介绍了一种创新的基于预训练大型扩散模型的风格转换方法 FreeStyle,无需进一步优化,通过对所需风格的文本描述,实现风格转换,并且实验结果表明了其在不同内容图像和风格文本提示下的高质量综合和保真度。
Jan, 2024
本文研究了图像检索框架,让我们能够比较生成的图像与训练样本,并检测什么时候复制了内容。我们使用这个框架分析了多个数据集上训练的扩散模型,包括牛津花卉,Celeb-A,ImageNet 和 LAION,讨论了训练集大小等因素对内容复制率的影响。同时,我们还发现了一些这种扩散模型直接从其训练数据中复制的情况,包括流行的稳定扩散模型。
Dec, 2022