Oct, 2023

在黑盒语言模型中证明测试集污染

TL;DR通过无需预训练数据或模型权重的方法,我们可以提供对语言模型测试集污染的可证明保证,通过对典型排序的基准数据集的似然性进行比较,我们的测试能够可靠地证明测试集污染的情况。在五个常见的公开可访问的语言模型中,我们的测试发现很少有普遍污染的证据。