奇幻版权之兽及其 (不) 生成方法

Jun, 2024

Fantastic Copyrighted Beasts and How (Not) to Generate Them

Luxi He, Yangsibo Huang, Weijia Shi, Tinghao Xie, Haotian Liu...

TL;DR最近的研究表明，图像和视频生成模型可以通过其训练数据中的版权内容生成相关内容，因此引发了严重的版权侵权问题。特别是版权角色对图像生成服务构成了巨大挑战，至少有一起诉讼已经基于生成这些角色获得了赔偿。然而，目前还很少有研究对这个问题进行了实证研究。我们进行了系统性评估以填补这一空白。首先，我们建立了一个包含多种版权角色和创新评估流程的评估套件 CopyCat。我们的评估考虑了相似性检测以及生成图像与用户输入的一致性。我们的评估系统地展示了即使在提示中没有明确提及角色名称的情况下，图像和视频生成模型仍然可以生成角色，有时仅使用两个常见关键词（例如，“电子游戏，水管工” 提示可以一致地生成任天堂的马里奥角色）。然后，我们引入了一些技术来半自动地识别触发角色生成的关键词或描述。利用我们的评估套件，我们研究了运行时的缓解策略，包括现有方法和我们提出的新策略。我们的研究发现，常用的策略，如 DALL-E 系统中的提示改写，作为独立的防卫措施是不够的。这些策略必须与其他方法结合使用，如负向提示，以有效减少意外生成版权角色。我们的工作为版权缓解策略的讨论提供了实证基础，并为积极实施这些策略的模型部署者提供了可行的见解。

Abstract

Recent studies show that image and video generation models can be prompted to reproduce copyrighted content from their training data, raising serious legal concerns around copyright infringement. Copyrighted char

发现论文，激发创造

评估和缓解视觉生成人工智能中的知识产权侵权

通过对视觉生成 AI 模型进行广泛评估，我们发现当输入提示包含角色的名称或其特征的描述时，最先进的视觉生成模型能够生成与主要娱乐公司（如索尼、漫威和任天堂）持有的知识产权相似的内容，由此引发潜在的法律担忧。为了减轻此类知识产权侵权问题，我们提出一种防御方法，通过在扩散过程中利用引导技术，开发了一种修订生成范例，这种范例能够识别可能侵权的生成内容，并在整个扩散过程中减轻侵权行为，而无需重新训练或微调预训练模型。对 Spider-Man、Iron Man 和 Superman 等知名角色的实验表明了所提出的防御方法的有效性。

Jun, 2024

探究实际场景下扩散模型的版权问题

我们的研究通过对部分版权侵权进行探究，并使用与版权有很大差异的提示，解决了以往研究的局限性。我们开发了一个数据生成流程，为扩散模型中的版权研究创建数据集。使用我们的流程，我们创建了包含不同扩散模型中版权侵权样本的数据集，并在各种标准下进行评估。我们的结果显示，在一系列扩散模型中生成侵权内容的普遍性，包括最新的稳定扩散 XL 模型。

Sep, 2023

应对 GenAI 版权问题：原创性估计与泛化

通过引入量化数据原创性的度量标准，并采用泛化方法，修改生成模型的输出以符合版权要求，实验结果表明该方法可以成功将文本到图像生成模型的输出转化为更通用符合版权的图像。

Jun, 2024

生成型人工智能中数据的知识产权保护方法评述

大型生成型人工智能（GAI）模型可以生成逐渐无法区分是否人工生成的文本、图片、声音和其他形式的媒体。本文研究了训练数据的知识产权问题，重点关注生成模型的特性，探讨可能导致潜在知识产权侵犯的滥用行为，并提出了一个分类体系，对 GAI 中保护数据免受知识产权侵犯的技术解决方案进行系统评述。

Apr, 2024

在文本到图像生成模型时代重新思考艺术版权侵权问题

最近的文本到图像生成模型（如稳定扩散）非常擅长模仿和生成受版权保护的内容，这引起了艺术家们的担忧，他们担心自己的独特风格可能会被不当复制。为了解决这个问题，本文将 “艺术版权侵权” 问题重新定义为对图像集进行分类问题，而不是探究图像间的相似性。我们首先介绍了 ArtSavant，这是一个实用的工具，通过与由 WikiArt 策展的 372 位艺术家作品组成的参考数据集进行比较，可以确定艺术家的独特风格，并识别其是否出现在生成的图像中。我们利用两种互补的方法对图像集进行艺术风格分类，包括 TagMatch，这是一种新颖且可解释的方法，更适合非技术相关的利益相关者（艺术家、律师、法官等）广泛使用。利用 ArtSavant 进行大规模实证研究，以量化的方式揭示了三种流行的文本到图像生成模型中艺术风格被复制的普遍情况。在包括许多著名艺术家在内的大量艺术家的数据集中，仅有 20％的艺术家的风格有被当今流行的文本到图像生成模型简单指令提示复制的风险。

Apr, 2024

文本到图像传播模型的版权保护数据集与基准

该研究提供了第一个大规模标准化的数据集和基准库，以及评估版权保护方法有效性的一套评估指标。

Jan, 2024

生成 AI 版权挑战的经济解决方案

Apr, 2024

生成式人工智能中的版权保护：技术视角

从技术角度综述了版权保护，包括数据源权利保护和生成模型版权保护，探讨了数据所有者保护内容和合法利用 DGMs 的方法，以及防止模型盗取和识别特定模型生成结果的策略。同时，强调了现有技术限制和待开发领域，并讨论了版权保护对 Generative AI 可持续和道德发展的重要性。

Feb, 2024

测量扩散模型在模仿人类艺术家方面的成功

现代扩散模型在人工智能图像生成中处于领先地位。本研究发现，这种成功部分归因于在互联网规模的数据上进行训练，其中包括版权作品。研究通过使用 CLIP 编码器进行艺术家的模仿，验证模型是否能够成功模仿人类艺术家。

Jul, 2023

文本到图像模型中的人类内容版权保护插件授权

该研究论文讨论了文本到图像生成模型中的版权侵权问题，并提出了版权插件授权框架，通过增加、提取和合并三个操作来解决该问题，以促进公平使用并在生成型人工智能时代提供人类版权保护的有效解决方案。

Apr, 2024