Jun, 2024

对预训练数据检测的语言模型探究

TL;DR大语言模型(LLMs)在展示其出色的能力的同时,也引发了由于隐私问题和基准数据集泄露所导致的数据污染问题。因此,在预训练阶段检测污染是否有LLM在目标文本上进行了预训练变得至关重要。最近的研究关注生成的文本并计算困惑度,但这些都是表面特征而不可靠。本研究提出利用探测技术来检测预训练数据,通过检查模型的内部激活状态。我们的方法简单且有效,并实现了更可靠的预训练数据检测。此外,我们还提出了ArxivMIA基准,它包括来自计算机科学和数学类别的arxiv摘要。我们的实验证明我们的方法胜过所有基准,实现了WikiMIA和ArxivMIA的最新性能,并通过额外的实验验证了其有效性。