Oct, 2023

大语言模型的预训练数据检测

TL;DR通过 Min-K% Prob 方法,我们研究了大语言模型的预训练数据检测问题,引入了 WIKIMIA 动态基准和一个简单的假设,达到了 7.4% 的改进。我们将该方法应用于版权图书检测和受污染下游示例检测,发现它是一种始终有效的解决方案。