Feb, 2024

DE-COP:检测语言模型训练数据中的版权内容

TL;DR我们提出了 DE-COP 方法,通过向语言模型提出包含直接引文和释义的多项选择题,来确定受版权保护的内容是否包含在训练中。我们构建了 BookTection 基准测试集,其中包含了 165 本在模型训练截止日期之前和之后出版的书籍摘录及其释义。我们的实验结果显示,DE-COP 方法在具有 logits 可用的模型上比之前的最佳方法的检测性能(AUC)提高了 9.6%。此外,DE-COP 方法在完全黑盒模型上的检测可疑书籍的平均准确率为 72%,而之前的方法只能达到约 4% 的准确率。