语言语模与记忆：版权合规的质量和特定性

May, 2024

语言语模与记忆：版权合规的质量和特定性

LLMs and Memorization: On Quality and Specificity of Copyright Compliance

Felix B Mueller, Rebekka Görge, Anna K Bernzen, Janna C Pirk, Maximilian Poretschkin

TL;DR采用欧洲法律为例，本研究提出了一种系统分析方法， quantifying potential copyright infringements in large language models (LLMs)。通过使用 160 个字符的阈值和模糊文本匹配算法，研究分析了指导微调模型在真实终端用户场景中的行为和特征。该研究结果发现在几种主流的 LLMs 中对版权合规、行为特征和适当拒绝方面表现出巨大差异。

Abstract

memorization in large language models (LLMs) is a growing concern. LLMs have been shown to easily reproduce parts of their training data, including copyrighted work. This is an important problem to solve, as it m

memorization large language models copyright infringement threshold countermeasures

发现论文，激发创造

侵权与大型语言模型

本研究通过对语言模型的逐字记忆进行探索，重点关注版权文字的再分发可能性，通过对一系列热门图书和编码问题进行实验，提供了个人估计的语言模型再分发这些材料的程度。总体而言，本研究强调了进一步研究的必要性，以及对版权法规遵守的潜在影响和未来自然语言处理发展的潜在影响。

Oct, 2023

SHIELD：LLM 文本生成中版权合规的评估与防御策略

当前大型语言模型存在版权侵权问题，相关挑战包括版权合规评估、鲁棒性防御以及生成版权文本的有效防御机制。本文介绍了一个数据集用于评估方法、测试攻击策略，并提出了轻量级、实时的防御机制以确保大型语言模型的安全合法使用。实验证明，当前大型语言模型存在生成版权文本的问题，而越狱攻击会显著增加生成的版权文本量。我们提出的防御机制通过有效拒绝恶意请求，显著减少了大型语言模型生成的版权文本量。代码公开可用于该链接网址。

Jun, 2024

通用大型语言模型中的记忆化

大型语言模型在记忆方面的挑战和机会，包括隐私、安全、版权等问题，并提出目前的研究方向。

Oct, 2023

Digger: 大型语言模型训练中侵权内容的检测

介绍了一种用于检测和评估用于大型语言模型的训练数据集中的潜在版权书籍内容的详细框架，并提供了每个内容样本包含的可信度估计。通过模拟实验证实了该框架在识别和解决语言模型训练过程中的内容滥用方面的有效性，同时研究了这些数据集中来自名著的可识别引用语的存在。研究结果对于确保版权材料在语言模型开发中的合理使用具有重要意义，强调了在该领域需要更加透明和负责任的数据管理实践。

Jan, 2024

PlagBench: 大型语言模型在抄袭生成和检测中的二元性探索

最近的文献强调了大型语言模型（LLMs）与学术诚信相关的潜在风险，它们可以记忆部分训练实例并在生成的文本中无妥善归属地复制。此外，鉴于它们在生成高质量文本方面的能力，剽窃者可以利用 LLMs 生成与原作无法区分的逼真释义或摘要。为了应对 LLMs 可能在剽窃行为中的恶意使用，我们介绍了 PlagBench，这是一个综合的数据集，由三个针对不同写作领域的三个指导调整的 LLMs 生成的 46.5K 个合成剽窃案例组成。通过对每种类型的剽窃进行细粒度的自动评估和人工注释来确保 PlagBench 的质量。然后，我们利用我们提出的数据集来评估五个现代 LLMs 和三个专门的剽窃检测器的剽窃检测性能。我们的研究结果表明，与 Llama2 和 GPT-4 相比，GPT-3.5 倾向于生成更高质量的释义和摘要。尽管 LLMs 在摘要剽窃识别方面表现较差，但它们可以超过当前的商业剽窃检测器。总体而言，我们的结果突显了 LLMs 作为强大剽窃检测工具的潜力。

Jun, 2024

大型语言模型（LLM）的利用中的挑战和影响因素

当面临领域特定问题时，大语言模型（LLMs）可能会遇到问题，如知识遗忘、知识重复、知识幻觉以及知识毒性，这些问题突显了 LLMs 的训练数据和算法设计的困扰。为了解决这些问题，建议对训练数据进行多样化，微调模型，提高透明度和可解释性，并引入伦理和公平性培训。未来的技术趋势可能会倾向于迭代方法学、多模态学习、模型个性化定制以及实时学习和反馈机制。最重要的是，未来的 LLMs 应确保在为人类服务时优先考虑公平、透明和伦理，确保它们持有高的道义和道德标准。

Oct, 2023

如何在大型语言模型的优化中保护版权数据？

利用训练大语言模型的理论方法，可以避免生成版权数据。

Aug, 2023

语言模型是否存在抄袭问题？

本文研究了语言模型中三种类型的抄袭行为（即逐字，改写和思想），分析了细调语言模型的抄袭模式。结果显示，语言模型存在广泛的抄袭，其大小和解码方法与抄袭程度密切相关，抄袭模式的变化取决于其语料库的相似性和同质性。这些发现提出了关于当前语言模型实践中实用性的疑虑并强调了观察到的现象的更多探讨。

Mar, 2022

文学文本引文归属中 LLMs 的实际评估：以 LLaMa3 为案例研究

通过对小说中引语归属进行评估，我们发现大型语言模型（LLMs）的性能与小说记忆程度呈正相关，但是即使对未见过的书籍，Llama3 仍表现出色。

Jun, 2024

大型语言模型的合法性及局限性：构建强大的法律语言模型的论证

近期自然语言处理（NLP）在法律领域的应用面临诸多挑战，包括极长的序列长度、专业词汇仅律师才能理解以及数据不平衡。大型语言模型（LLMs）的出现为 NLP 在法律领域提供了新的机会。本研究旨在量化普通 LLMs 与领域特定模型在法律领域的表现，通过比较三个通用 LLMs（ChatGPT-20b，LLaMA-2-70b 和 Falcon-180b）在 LexGLUE 合同条款分类基准测试集上的零样本性能。尽管 LLMs 未经专门训练法律数据，但我们观察到它们在大多数情况下仍能正确分类主题。然而，我们发现它们的微 F1 / 宏 F1 性能比在法律领域微调的较小模型要低 19.2/26.8％，这凸显了需要更强大的法律领域 LLMs。

Nov, 2023