在语言模型评估中避免数据污染：使用最新材料进行动态测试构建

AAAIDec, 2023

在语言模型评估中避免数据污染：使用最新材料进行动态测试构建

Avoiding Data Contamination in Language Model Evaluation: Dynamic Test Construction with Latest Materials

Yucheng Li, Frank Geurin, Chenghua Lin

TL;DR利用最新的文本构建不受数据污染的阅读理解评估方法 LatestEval，通过仅使用最近时间窗口内发布的文本，并避免与预训练语言模型的训练语料库重叠，从而鼓励模型基于剩余的上下文推断答案而不是简单地复制粘贴，实验表明，在 LatestEval 上，语言模型显示出可忽略的记忆行为，相较于之前的基准测试，减少了数据污染风险并且评估更具鲁棒性。

Abstract

data contamination in evaluation is getting increasingly prevalent with the emerge of language models pre-trained on super large, automati

data contamination evaluation language models latesteval memorisation behaviors

发现论文，激发创造

干净评估：对受污染的大型语言模型的清洁评估

为了解决大型语言模型中的数据污染和评估问题，我们提出了一种名为 Clean-Eval 的方法，利用语义检测器筛选出生成的低质量样本，从候选集中选择出与原始污染数据在语义上相似但表达不同的最佳候选来形成一个新的基准，从而在少样本学习和微调场景下还原了受污染的语言模型的实际评估结果。

Nov, 2023

数据污染能够跨越语言障碍

开发大型语言模型的不透明性引起了关于潜在的训练数据污染的担忧。我们提出了一种基于跨语言的深层污染形式，可以欺骗传统的检测方法。我们还探讨了跨语言污染在解释语言模型的工作机制和提升多语言能力方面的潜在用途。

Jun, 2024

探究预训练语言模型的数据污染

本文研究了语言模型在预训练阶段遭受数据污染的影响，探索了文本污染和真实数据污染对模型性能的影响，调查了不同下游任务中污染的重复效应，并指出了当前 LLM 报告中关于污染定义的局限性和不足之处。研究结果为了解数据污染对语言模型的影响提供了新的见解，并强调在 LLM 研究中进行独立、全面的污染评估的必要性。

Jan, 2024

重新思考以重新表述的样本为基础的语言模型基准和污染问题

大型语言模型的数据污染问题及其对应的检查与净化方法

Nov, 2023

时间视角下的数据污染

大型语言模型的数据污染问题及对基准测试的影响进行了全面纵向分析，结果表明数据污染现象显著存在，这项研究为研究现代模型中数据污染问题的严格分析奠定了基础，并提出了在大型语言模型时代进行基准测试的最佳实践和未来步骤。

Oct, 2023

评估语言模型代码生成能力时的污染量量化

该研究综合研究了大型语言模型在代码生成任务中的数据污染问题，分析了常见代码生成基准测试与预训练语料之间的重叠程度，并揭示了类似训练解决方案出现时模型性能显著提高的现象，同时分析了模型大小、问题难度和问题长度等因素对模型记忆和泛化的影响。

Mar, 2024

KIEval：大型语言模型的基于知识的交互评估框架

KIEval 是一个知识驱动的交互式评估框架，通过在常规 LLM 基准问题中引入一个 LLM 增强的 “交互者” 角色，进行动态抗干扰评估，以确定模型的回答是否仅仅是基准答案的回忆，还是展示了更复杂对话中应用知识的深度理解。对五个数据集上的七个领先 LLM 进行的大量实验证实了 KIEval 的有效性和泛化性，同时揭示了数据污染对模型在现实世界的适用性和理解力没有贡献甚至产生负效应的事实，并且现有的 LLM 数据干扰检测方法只能在预训练阶段识别干扰而无法在监督微调期间进行识别。

Feb, 2024

泛化还是记忆：大型语言模型的数据污染与可信评估

我们提出了基于 LLMs 输出分布的数据污染检测方法 CDD，并通过修正 LLMs 输出分布的方法 TED，有效地检测和减轻数据污染的影响。实验结果表明，CDD 在准确度、F1 得分和 AUC 指标方面相对其他方法平均提升了 21.8％-30.2％，TED 在 24 种设置和 21 种污染程度下成功地减轻数据污染引起的性能下降高达 66.9％。实际应用中，我们发现 ChatGPT 在 HumanEval 基准中存在受数据污染的高风险。

Feb, 2024

数据污染测试：检测和估算大型语言模型中的污染工具

我们提出了数据污染测验，一种用于检测大型语言模型（LLMs）中数据污染并估计其量的简单有效方法。我们将数据污染检测构建为一系列多项选择问题，创建了三个扰动版本的每个数据集实例。通过仅进行词级扰动，用其上下文同义词替换单词，确保其语义和句子结构与原始实例完全相同，我们设计了一个测验格式。这些扰动版本与原始实例一起构成测验中的选择项。当只有确切的措辞可以区分这些选择项时，LLM 在识别选择项中的原始实例时，如果在预训练阶段记忆了该实例，则选择原始实例，这是 LLM 固有的特性。如果 LLM 在测验中的表现超过了随机机会所示，那么数据集划分就被标记为被污染。我们的评估涵盖了七个数据集及其相应的划分（训练和测试 / 验证），在两种最先进的 LLMs：GPT-4 和 GPT-3.5 上进行。尽管无法获得预训练数据，我们的结果表明，我们的方法不仅增强了对数据污染的检测，还可以在污染信号较弱时提供准确的估计。

Nov, 2023

自动化数据集更新以实现可靠和及时评估

通过自动化数据集更新以可靠且及时进行评估，来解决大型语言模型面临的评估挑战及数据泄漏问题。

Feb, 2024