泛化还是记忆：大型语言模型的数据污染与可信评估

Feb, 2024

泛化还是记忆：大型语言模型的数据污染与可信评估

Generalization or Memorization: Data Contamination and Trustworthy Evaluation for Large Language Models

Yihong Dong, Xue Jiang, Huanyu Liu, Zhi Jin, Ge Li

TL;DR我们提出了基于 LLMs 输出分布的数据污染检测方法 CDD，并通过修正 LLMs 输出分布的方法 TED，有效地检测和减轻数据污染的影响。实验结果表明，CDD 在准确度、F1 得分和 AUC 指标方面相对其他方法平均提升了 21.8％-30.2％，TED 在 24 种设置和 21 种污染程度下成功地减轻数据污染引起的性能下降高达 66.9％。实际应用中，我们发现 ChatGPT 在 HumanEval 基准中存在受数据污染的高风险。

Abstract

Recent statements about the impressive capabilities of large language models (LLMs) are usually supported by evaluating on open-access benchmarks. Considering the vast size and wide-ranging sources of LLMs' training data, it could explicitly or implicitly include test data, leading to

large language models data contamination contamination detection via output distribution trustworthy evaluation via output distribution data contamination detection

发现论文，激发创造

数据污染能够跨越语言障碍

开发大型语言模型的不透明性引起了关于潜在的训练数据污染的担忧。我们提出了一种基于跨语言的深层污染形式，可以欺骗传统的检测方法。我们还探讨了跨语言污染在解释语言模型的工作机制和提升多语言能力方面的潜在用途。

Jun, 2024

LLMs 内的时间旅行：追踪大型语言模型中的数据污染

在理解大型语言模型（LLM）对其他任务的有效性中，数据污染（即，在训练数据中存在来自下游任务的测试数据）可能是一个重要问题。我们提出了一种简单但有效的方法来识别 LLMs 中的数据污染，该方法通过识别来自小型随机样本的个别实例中的潜在污染，然后评估整个数据集分区是否受到了污染。

Aug, 2023

数据污染测试：检测和估算大型语言模型中的污染工具

我们提出了数据污染测验，一种用于检测大型语言模型（LLMs）中数据污染并估计其量的简单有效方法。我们将数据污染检测构建为一系列多项选择问题，创建了三个扰动版本的每个数据集实例。通过仅进行词级扰动，用其上下文同义词替换单词，确保其语义和句子结构与原始实例完全相同，我们设计了一个测验格式。这些扰动版本与原始实例一起构成测验中的选择项。当只有确切的措辞可以区分这些选择项时，LLM 在识别选择项中的原始实例时，如果在预训练阶段记忆了该实例，则选择原始实例，这是 LLM 固有的特性。如果 LLM 在测验中的表现超过了随机机会所示，那么数据集划分就被标记为被污染。我们的评估涵盖了七个数据集及其相应的划分（训练和测试 / 验证），在两种最先进的 LLMs：GPT-4 和 GPT-3.5 上进行。尽管无法获得预训练数据，我们的结果表明，我们的方法不仅增强了对数据污染的检测，还可以在污染信号较弱时提供准确的估计。

Nov, 2023

时间视角下的数据污染

大型语言模型的数据污染问题及对基准测试的影响进行了全面纵向分析，结果表明数据污染现象显著存在，这项研究为研究现代模型中数据污染问题的严格分析奠定了基础，并提出了在大型语言模型时代进行基准测试的最佳实践和未来步骤。

Oct, 2023

现代大语言模型中数据污染问题研究

我们通过检测数据污染并提出 “Testset Slot Guessing” 方法，发现商业化的 LLM 在评估基准中有明显的性能改进，并呼吁在该领域使用更强大的评估方法和基准。

Nov, 2023

大型语言模型的基准数据污染：调查

大型语言模型如 GPT-4、Claude-3 和 Gemini 的快速发展已经改变了自然语言处理领域，但也引发了一个重大问题，即基准数据污染（BDC）。本文回顾了 LLM 评估中复杂的 BDC 挑战，并探讨了缓解传统基准风险的替代评估方法。本文还分析了缓解 BDC 风险的挑战和未来发展方向，突出了这一问题的复杂性和确保 LLM 评估在实际应用中可靠性的创新解决方案的需求。

Jun, 2024

评估语言模型代码生成能力时的污染量量化

该研究综合研究了大型语言模型在代码生成任务中的数据污染问题，分析了常见代码生成基准测试与预训练语料之间的重叠程度，并揭示了类似训练解决方案出现时模型性能显著提高的现象，同时分析了模型大小、问题难度和问题长度等因素对模型记忆和泛化的影响。

Mar, 2024

DICE：检测数学推理中 LLM 微调阶段的内分布污染

该研究提出了一种名为 DICE 的新方法，通过使用大型语言模型的内部状态来检测分布内的污染，该方法在各种大型语言模型和数学推理数据集上具有高准确性，指出分布内的污染问题可能导致对现有模型真实能力的过高估计。

Jun, 2024

干净评估：对受污染的大型语言模型的清洁评估

为了解决大型语言模型中的数据污染和评估问题，我们提出了一种名为 Clean-Eval 的方法，利用语义检测器筛选出生成的低质量样本，从候选集中选择出与原始污染数据在语义上相似但表达不同的最佳候选来形成一个新的基准，从而在少样本学习和微调场景下还原了受污染的语言模型的实际评估结果。

Nov, 2023

Llama 系列模型的开源数据污染报告

该研究报告介绍了 Llama 系列模型的开源数据污染报告，对六个热门的多项选择问答基准进行了分析，量化了它们与 Llama 的训练集的重叠情况。发现基准中存在 1% 至 8.7% 不同程度的污染。比较还显示，与干净的子集相比，Llama 模型在被污染的子集上可以获得超过 5% 的更高准确率。数据和代码可在链接中获得。

Oct, 2023