Jun, 2024

奇幻版权之兽及其 (不) 生成方法

TL;DR最近的研究表明,图像和视频生成模型可以通过其训练数据中的版权内容生成相关内容,因此引发了严重的版权侵权问题。特别是版权角色对图像生成服务构成了巨大挑战,至少有一起诉讼已经基于生成这些角色获得了赔偿。然而,目前还很少有研究对这个问题进行了实证研究。我们进行了系统性评估以填补这一空白。首先,我们建立了一个包含多种版权角色和创新评估流程的评估套件 CopyCat。我们的评估考虑了相似性检测以及生成图像与用户输入的一致性。我们的评估系统地展示了即使在提示中没有明确提及角色名称的情况下,图像和视频生成模型仍然可以生成角色,有时仅使用两个常见关键词(例如,“电子游戏,水管工” 提示可以一致地生成任天堂的马里奥角色)。然后,我们引入了一些技术来半自动地识别触发角色生成的关键词或描述。利用我们的评估套件,我们研究了运行时的缓解策略,包括现有方法和我们提出的新策略。我们的研究发现,常用的策略,如 DALL-E 系统中的提示改写,作为独立的防卫措施是不够的。这些策略必须与其他方法结合使用,如负向提示,以有效减少意外生成版权角色。我们的工作为版权缓解策略的讨论提供了实证基础,并为积极实施这些策略的模型部署者提供了可行的见解。