Feb, 2024

规避语言模型的数据污染检测 (过于) 简单

TL;DR大型语言模型在基准测试中的性能经常影响用户对模型的偏好。然而,这些模型训练所使用的大量数据可能会无意中与公共基准测试数据混合,从而损害性能测量结果。尽管最近开发了一些污染检测方法来解决这个问题,但它们忽视了恶意模型提供者有意回避检测的可能性。我们认为这种情况非常重要,因为它对公共基准测试的可靠性产生了怀疑。为了更严谨地研究这个问题,我们提出了对模型提供者和污染检测方法进行分类。这揭示了现有方法的漏洞,我们利用了一种简单但有效的污染技术(EAL),它能大幅提高基准测试性能,并完全回避当前的检测方法。