评估语言模型的版权下架方法

Jun, 2024

Evaluating Copyright Takedown Methods for Language Models

Boyi Wei, Weijia Shi, Yangsibo Huang, Noah A. Smith, Chiyuan Zhang...

TL;DR本文介绍了对语言模型版权撤回方法的可行性和副作用的首次评估，并提出了 CoTaEval 评估框架，以评估版权撤回方法的有效性、对模型保留非受版权限制的事实性知识的影响，以及模型在保持整体效用和效率方面的表现。通过添加系统提示、解码时的过滤干预和去学习方法等几种策略的研究，我们的发现表明，在所有指标上没有测试的方法表现出色，这表明在这个独特的问题设置中还有重要的研究空间，并暗示现行政策提议中可能存在未解决的挑战。

Abstract

language models (LMs) derive their capabilities from extensive training on diverse data, including potentially copyrighted material. These models can memorize and generate content similar to their training data, posing potential concerns. Therefore, model creators are motivated to deve

language models copyright takedowns cotaeval evaluation framework mitigation methods

发现论文，激发创造

Digger: 大型语言模型训练中侵权内容的检测

介绍了一种用于检测和评估用于大型语言模型的训练数据集中的潜在版权书籍内容的详细框架，并提供了每个内容样本包含的可信度估计。通过模拟实验证实了该框架在识别和解决语言模型训练过程中的内容滥用方面的有效性，同时研究了这些数据集中来自名著的可识别引用语的存在。研究结果对于确保版权材料在语言模型开发中的合理使用具有重要意义，强调了在该领域需要更加透明和负责任的数据管理实践。

Jan, 2024

侵权与大型语言模型

本研究通过对语言模型的逐字记忆进行探索，重点关注版权文字的再分发可能性，通过对一系列热门图书和编码问题进行实验，提供了个人估计的语言模型再分发这些材料的程度。总体而言，本研究强调了进一步研究的必要性，以及对版权法规遵守的潜在影响和未来自然语言处理发展的潜在影响。

Oct, 2023

大型语言模型的版权陷阱

利用版权陷阱检测大型语言模型中的版权材料，通过研究版权保护的内容的公平使用和训练模型中的内容是否可被检测，提出了一种实验设计，并发现较长的序列经过重复多次可以可靠地检测出来，并通过研究序列出现次数及困惑度，以及考虑上下文的方法进一步改善了检测能力。

Feb, 2024

SHIELD：LLM 文本生成中版权合规的评估与防御策略

当前大型语言模型存在版权侵权问题，相关挑战包括版权合规评估、鲁棒性防御以及生成版权文本的有效防御机制。本文介绍了一个数据集用于评估方法、测试攻击策略，并提出了轻量级、实时的防御机制以确保大型语言模型的安全合法使用。实验证明，当前大型语言模型存在生成版权文本的问题，而越狱攻击会显著增加生成的版权文本量。我们提出的防御机制通过有效拒绝恶意请求，显著减少了大型语言模型生成的版权文本量。代码公开可用于该链接网址。

Jun, 2024

DE-COP：检测语言模型训练数据中的版权内容

我们提出了 DE-COP 方法，通过向语言模型提出包含直接引文和释义的多项选择题，来确定受版权保护的内容是否包含在训练中。我们构建了 BookTection 基准测试集，其中包含了 165 本在模型训练截止日期之前和之后出版的书籍摘录及其释义。我们的实验结果显示，DE-COP 方法在具有 logits 可用的模型上比之前的最佳方法的检测性能（AUC）提高了 9.6%。此外，DE-COP 方法在完全黑盒模型上的检测可疑书籍的平均准确率为 72%，而之前的方法只能达到约 4% 的准确率。

Feb, 2024

通过机器遗忘来避免版权侵权

在这篇论文中，我们提出了一种稳定的序列遗忘（SSU）框架，该框架使用任务向量，通过引入额外的随机标签损失和应用基于梯度的权重显著性映射，以更稳定的方式在不同的时间步骤中从 LLMs 中删除受版权保护的内容，实验证明 SSU 在遗忘效果和保持模型的一般知识之间取得了良好的平衡。

Jun, 2024

语言语模与记忆：版权合规的质量和特定性

采用欧洲法律为例，本研究提出了一种系统分析方法， quantifying potential copyright infringements in large language models (LLMs)。通过使用 160 个字符的阈值和模糊文本匹配算法，研究分析了指导微调模型在真实终端用户场景中的行为和特征。该研究结果发现在几种主流的 LLMs 中对版权合规、行为特征和适当拒绝方面表现出巨大差异。

May, 2024

如何在大型语言模型的优化中保护版权数据？

利用训练大语言模型的理论方法，可以避免生成版权数据。

Aug, 2023

评估和优化大型语言模型的教育内容

利用语言模型作为教育专家评估不同学生群体学习成果的方法，以优化教育材料。这种方法可以复制已有的教育研究结果，如专业逆转效应和变异效应，展示了语言模型作为可靠教育内容评估者的潜力。基于此，我们介绍了一种通过一个语言模型生成教育材料，另一个语言模型作为奖励函数进行指令优化的方法，并在数学问题工作表领域应用了这一方法，以最大化学生的学习收益。人类教师对这些由语言模型生成的工作表进行评估，发现语言模型的判断与人类教师的偏好具有显著的一致性。最后，我们讨论了人类和语言模型之间的潜在分歧和自动化教学设计带来的陷阱。

Mar, 2024

奇幻版权之兽及其 (不) 生成方法

最近的研究表明，图像和视频生成模型可以通过其训练数据中的版权内容生成相关内容，因此引发了严重的版权侵权问题。特别是版权角色对图像生成服务构成了巨大挑战，至少有一起诉讼已经基于生成这些角色获得了赔偿。然而，目前还很少有研究对这个问题进行了实证研究。我们进行了系统性评估以填补这一空白。首先，我们建立了一个包含多种版权角色和创新评估流程的评估套件 CopyCat。我们的评估考虑了相似性检测以及生成图像与用户输入的一致性。我们的评估系统地展示了即使在提示中没有明确提及角色名称的情况下，图像和视频生成模型仍然可以生成角色，有时仅使用两个常见关键词（例如，“电子游戏，水管工” 提示可以一致地生成任天堂的马里奥角色）。然后，我们引入了一些技术来半自动地识别触发角色生成的关键词或描述。利用我们的评估套件，我们研究了运行时的缓解策略，包括现有方法和我们提出的新策略。我们的研究发现，常用的策略，如 DALL-E 系统中的提示改写，作为独立的防卫措施是不够的。这些策略必须与其他方法结合使用，如负向提示，以有效减少意外生成版权角色。我们的工作为版权缓解策略的讨论提供了实证基础，并为积极实施这些策略的模型部署者提供了可行的见解。

Jun, 2024