在黑盒语言模型中证明测试集污染

Oct, 2023

在黑盒语言模型中证明测试集污染

Proving Test Set Contamination in Black Box Language Models

Yonatan Oren, Nicole Meister, Niladri Chatterji, Faisal Ladhak, Tatsunori B. Hashimoto

TL;DR通过无需预训练数据或模型权重的方法，我们可以提供对语言模型测试集污染的可证明保证，通过对典型排序的基准数据集的似然性进行比较，我们的测试能够可靠地证明测试集污染的情况。在五个常见的公开可访问的语言模型中，我们的测试发现很少有普遍污染的证据。

Abstract

large language models are trained on vast amounts of internet data, prompting concerns and speculation that they have memorized public benchmarks. Going from speculation to proof of contamination is challenging, as the

large language models test set contamination pretraining data canonical orderings audit

发现论文，激发创造

数据污染能够跨越语言障碍

开发大型语言模型的不透明性引起了关于潜在的训练数据污染的担忧。我们提出了一种基于跨语言的深层污染形式，可以欺骗传统的检测方法。我们还探讨了跨语言污染在解释语言模型的工作机制和提升多语言能力方面的潜在用途。

Jun, 2024

评估语言模型代码生成能力时的污染量量化

该研究综合研究了大型语言模型在代码生成任务中的数据污染问题，分析了常见代码生成基准测试与预训练语料之间的重叠程度，并揭示了类似训练解决方案出现时模型性能显著提高的现象，同时分析了模型大小、问题难度和问题长度等因素对模型记忆和泛化的影响。

Mar, 2024

重新思考以重新表述的样本为基础的语言模型基准和污染问题

大型语言模型的数据污染问题及其对应的检查与净化方法

Nov, 2023

时间视角下的数据污染

大型语言模型的数据污染问题及对基准测试的影响进行了全面纵向分析，结果表明数据污染现象显著存在，这项研究为研究现代模型中数据污染问题的严格分析奠定了基础，并提出了在大型语言模型时代进行基准测试的最佳实践和未来步骤。

Oct, 2023

现代大语言模型中数据污染问题研究

我们通过检测数据污染并提出 “Testset Slot Guessing” 方法，发现商业化的 LLM 在评估基准中有明显的性能改进，并呼吁在该领域使用更强大的评估方法和基准。

Nov, 2023

通过困惑度估计污染情况：量化语言模型评估中的记忆效应

最近的研究显示在大规模语言模型的训练语料中普遍存在数据污染问题，而现有的污染分析方法需要访问完整的训练数据，这常常限制了对这些模型的严格审计和准确评估。本文提出了一种新的方法来量化数据污染，通过困惑度来衡量污染程度，相关分析显示近期基础模型在流行的阅读理解和摘要化数据中存在显著的记忆化现象，而多项选择数据的污染程度较低。

Sep, 2023

数据污染测试：检测和估算大型语言模型中的污染工具

我们提出了数据污染测验，一种用于检测大型语言模型（LLMs）中数据污染并估计其量的简单有效方法。我们将数据污染检测构建为一系列多项选择问题，创建了三个扰动版本的每个数据集实例。通过仅进行词级扰动，用其上下文同义词替换单词，确保其语义和句子结构与原始实例完全相同，我们设计了一个测验格式。这些扰动版本与原始实例一起构成测验中的选择项。当只有确切的措辞可以区分这些选择项时，LLM 在识别选择项中的原始实例时，如果在预训练阶段记忆了该实例，则选择原始实例，这是 LLM 固有的特性。如果 LLM 在测验中的表现超过了随机机会所示，那么数据集划分就被标记为被污染。我们的评估涵盖了七个数据集及其相应的划分（训练和测试 / 验证），在两种最先进的 LLMs：GPT-4 和 GPT-3.5 上进行。尽管无法获得预训练数据，我们的结果表明，我们的方法不仅增强了对数据污染的检测，还可以在污染信号较弱时提供准确的估计。

Nov, 2023

探究预训练语言模型的数据污染

本文研究了语言模型在预训练阶段遭受数据污染的影响，探索了文本污染和真实数据污染对模型性能的影响，调查了不同下游任务中污染的重复效应，并指出了当前 LLM 报告中关于污染定义的局限性和不足之处。研究结果为了解数据污染对语言模型的影响提供了新的见解，并强调在 LLM 研究中进行独立、全面的污染评估的必要性。

Jan, 2024

规避语言模型的数据污染检测 (过于) 简单

大型语言模型在基准测试中的性能经常影响用户对模型的偏好。然而，这些模型训练所使用的大量数据可能会无意中与公共基准测试数据混合，从而损害性能测量结果。尽管最近开发了一些污染检测方法来解决这个问题，但它们忽视了恶意模型提供者有意回避检测的可能性。我们认为这种情况非常重要，因为它对公共基准测试的可靠性产生了怀疑。为了更严谨地研究这个问题，我们提出了对模型提供者和污染检测方法进行分类。这揭示了现有方法的漏洞，我们利用了一种简单但有效的污染技术（EAL），它能大幅提高基准测试性能，并完全回避当前的检测方法。

Feb, 2024

LLMs 内的时间旅行：追踪大型语言模型中的数据污染

在理解大型语言模型（LLM）对其他任务的有效性中，数据污染（即，在训练数据中存在来自下游任务的测试数据）可能是一个重要问题。我们提出了一种简单但有效的方法来识别 LLMs 中的数据污染，该方法通过识别来自小型随机样本的个别实例中的潜在污染，然后评估整个数据集分区是否受到了污染。

Aug, 2023