大型语言模型训练数据集中的代码许可侵权初探

Mar, 2024

大型语言模型训练数据集中的代码许可侵权初探

An Exploratory Investigation into Code License Infringements in Large Language Model Training Datasets

Jonathan Katzy, Răzvan-Mihai Popescu, Arie van Deursen, Maliheh Izadi

TL;DR大语言模型的训练是否会侵犯代码许可证？是否有可以安全使用来训练这些模型的可用数据集而不违反这些许可证呢？通过 53 个训练于文件级代码的大语言模型的研究，我们发现每个数据集都存在许可证一致性问题。因此，我们建议研究人员和社区都应优先发展和采用最佳实践来创建和管理数据集。

Abstract

Does the training of large language models potentially infringe upon code licenses? Furthermore, are there any datasets available that can be safely used for training these models without violating such licenses?

large language models code licenses datasets license inconsistencies best practices

发现论文，激发创造

使用开源代码训练大型语言模型的（滥）用

本研究探讨使用未经授权的代码构建 LLMs 所带来的安全、隐私和版权问题，并提出了四条可行的建议。

Feb, 2023

Digger: 大型语言模型训练中侵权内容的检测

介绍了一种用于检测和评估用于大型语言模型的训练数据集中的潜在版权书籍内容的详细框架，并提供了每个内容样本包含的可信度估计。通过模拟实验证实了该框架在识别和解决语言模型训练过程中的内容滥用方面的有效性，同时研究了这些数据集中来自名著的可识别引用语的存在。研究结果对于确保版权材料在语言模型开发中的合理使用具有重要意义，强调了在该领域需要更加透明和负责任的数据管理实践。

Jan, 2024

侵权与大型语言模型

本研究通过对语言模型的逐字记忆进行探索，重点关注版权文字的再分发可能性，通过对一系列热门图书和编码问题进行实验，提供了个人估计的语言模型再分发这些材料的程度。总体而言，本研究强调了进一步研究的必要性，以及对版权法规遵守的潜在影响和未来自然语言处理发展的潜在影响。

Oct, 2023

Java 项目中潜在的代码借用和许可证违规研究

研究了开源软件的许可文件问题，对 GitHub 上的流行 Java 项目进行了克隆代码的查找，并分析了可能存在的许可问题和代码借用。

Feb, 2020

源代码语言模型共享与能源利用的探索文献研究

本研究旨在调查与分析语言模型设计用于软件工程任务的研究是否共享代码及模型，以及针对模型训练所用的能源的透明度，从可持续的角度收集有用的信息。我们发现，当前研究中存在信息和工件共享的不足，约 40％的调查论文没有共享代码或训练过的工件，我们建议共享源代码和训练过的工件，以实现可持续的可重复性，同时还应该共享有关训练所需时间和硬件配置的全面信息，以确保模型的碳足迹透明度。

Jul, 2023

Stack: 3 TB 开源许可的源代码

本文介绍了一个包含三十种编程语言的开源代码数据集 The Stack，以及如何构建、管理和使用该数据集来训练大型语言模型，通过在 Python 子集上训练 350M 参数解码器，在文本到代码的基准测试上取得了有前途的结果。

Nov, 2022

未经我同意训练：检测编码包含在源代码训练模型中

为解决通过训练集成员推理来检测大型语言模型（LLMs）中代码包含的版权问题，作者提出了一种新方法 TraWiC，该方法是一种适用于任何模型且可解释的检测代码包含的方法。在实验证明，TraWiC 可以检测到 83.87% 的用于训练 LLM 的代码，而普通的克隆检测工具 NiCad 只能检测到 47.64%。此外，TraWiC 在资源消耗方面较低。

Feb, 2024

探究 BigCode、知识产权和道德：这到底是谁的代码？

本文旨在探究大型语言模型训练所使用的开放数据集的版权利益，以及生成式写作工具如何规避其版权问题，最后提出了可供开发人员、软件法律专家和普通用户在智能大型语言模型驱动的写作工具背景下考虑的实际版权分析路线图。

Apr, 2023

LLM 数据推断：你在我的数据集上训练了吗？

大语言模型在现实世界中的大量使用产生了对公司以未经许可的方式在互联网上训练模型的版权纠纷。本文提出了一种新的数据集推断方法来准确识别用于训练大语言模型的数据集，成功地区分了不同子集的 Pile 数据集的训练集和测试集，无任何错误的正例。

Jun, 2024

机器学习模型中的代码重复对系统的负面影响

本文探究代码重复对机器学习模型的影响，并提出了避免这一问题的最佳实践和工具。

Dec, 2018