Mar, 2024

大型语言模型训练数据集中的代码许可侵权初探

TL;DR大语言模型的训练是否会侵犯代码许可证?是否有可以安全使用来训练这些模型的可用数据集而不违反这些许可证呢?通过 53 个训练于文件级代码的大语言模型的研究,我们发现每个数据集都存在许可证一致性问题。因此,我们建议研究人员和社区都应优先发展和采用最佳实践来创建和管理数据集。