Jan, 2024

Digger: 大型语言模型训练中侵权内容的检测

TL;DR介绍了一种用于检测和评估用于大型语言模型的训练数据集中的潜在版权书籍内容的详细框架,并提供了每个内容样本包含的可信度估计。通过模拟实验证实了该框架在识别和解决语言模型训练过程中的内容滥用方面的有效性,同时研究了这些数据集中来自名著的可识别引用语的存在。研究结果对于确保版权材料在语言模型开发中的合理使用具有重要意义,强调了在该领域需要更加透明和负责任的数据管理实践。