揭示语言模型中的数据污染谱系：从检测到修复的概述

ACLJun, 2024

揭示语言模型中的数据污染谱系：从检测到修复的概述

Unveiling the Spectrum of Data Contamination in Language Models: A Survey from Detection to Remediation

Chunyuan Deng, Yilun Zhao, Yuzhao Heng, Yitong Li, Jiannan Cao...

TL;DR数据污染在大型语言模型 (LLMs) 时代引起了越来越多的关注，由于依赖于广泛来源于互联网的训练语料库。重叠训练语料库与评估基准的问题（称为污染）已成为重要的研究焦点。本文介绍了数据污染领域的综合调查，阐述了关键问题、方法和迄今为止的研究结果，并重点关注需要进一步研究和发展的领域。该调查对数据污染研究的最新进展进行了简明概述，为未来研究提供了清晰的指南。

Abstract

data contamination has garnered increased attention in the era of large language models (LLMs) due to the reliance on extensive internet-derived training corpora. The issue of training corpus overlap with evaluat

data contamination training corpus overlap contamination detection methods mitigation strategies advancements in data contamination research

发现论文，激发创造

探究预训练语言模型的数据污染

本文研究了语言模型在预训练阶段遭受数据污染的影响，探索了文本污染和真实数据污染对模型性能的影响，调查了不同下游任务中污染的重复效应，并指出了当前 LLM 报告中关于污染定义的局限性和不足之处。研究结果为了解数据污染对语言模型的影响提供了新的见解，并强调在 LLM 研究中进行独立、全面的污染评估的必要性。

Jan, 2024

数据污染能够跨越语言障碍

开发大型语言模型的不透明性引起了关于潜在的训练数据污染的担忧。我们提出了一种基于跨语言的深层污染形式，可以欺骗传统的检测方法。我们还探讨了跨语言污染在解释语言模型的工作机制和提升多语言能力方面的潜在用途。

Jun, 2024

评估语言模型代码生成能力时的污染量量化

该研究综合研究了大型语言模型在代码生成任务中的数据污染问题，分析了常见代码生成基准测试与预训练语料之间的重叠程度，并揭示了类似训练解决方案出现时模型性能显著提高的现象，同时分析了模型大小、问题难度和问题长度等因素对模型记忆和泛化的影响。

Mar, 2024

数据污染测试：检测和估算大型语言模型中的污染工具

我们提出了数据污染测验，一种用于检测大型语言模型（LLMs）中数据污染并估计其量的简单有效方法。我们将数据污染检测构建为一系列多项选择问题，创建了三个扰动版本的每个数据集实例。通过仅进行词级扰动，用其上下文同义词替换单词，确保其语义和句子结构与原始实例完全相同，我们设计了一个测验格式。这些扰动版本与原始实例一起构成测验中的选择项。当只有确切的措辞可以区分这些选择项时，LLM 在识别选择项中的原始实例时，如果在预训练阶段记忆了该实例，则选择原始实例，这是 LLM 固有的特性。如果 LLM 在测验中的表现超过了随机机会所示，那么数据集划分就被标记为被污染。我们的评估涵盖了七个数据集及其相应的划分（训练和测试 / 验证），在两种最先进的 LLMs：GPT-4 和 GPT-3.5 上进行。尽管无法获得预训练数据，我们的结果表明，我们的方法不仅增强了对数据污染的检测，还可以在污染信号较弱时提供准确的估计。

Nov, 2023

时间视角下的数据污染

大型语言模型的数据污染问题及对基准测试的影响进行了全面纵向分析，结果表明数据污染现象显著存在，这项研究为研究现代模型中数据污染问题的严格分析奠定了基础，并提出了在大型语言模型时代进行基准测试的最佳实践和未来步骤。

Oct, 2023

LLMs 内的时间旅行：追踪大型语言模型中的数据污染

在理解大型语言模型（LLM）对其他任务的有效性中，数据污染（即，在训练数据中存在来自下游任务的测试数据）可能是一个重要问题。我们提出了一种简单但有效的方法来识别 LLMs 中的数据污染，该方法通过识别来自小型随机样本的个别实例中的潜在污染，然后评估整个数据集分区是否受到了污染。

Aug, 2023

自然语言处理评估中的难题：从需要对每个基准进行 LLM 数据污染度测量谈起

该论文讨论了自然语言处理任务的评估存在的问题，并提出了数据污染以及针对数据污染的自动检测和提示措施。

Oct, 2023

规避语言模型的数据污染检测 (过于) 简单

大型语言模型在基准测试中的性能经常影响用户对模型的偏好。然而，这些模型训练所使用的大量数据可能会无意中与公共基准测试数据混合，从而损害性能测量结果。尽管最近开发了一些污染检测方法来解决这个问题，但它们忽视了恶意模型提供者有意回避检测的可能性。我们认为这种情况非常重要，因为它对公共基准测试的可靠性产生了怀疑。为了更严谨地研究这个问题，我们提出了对模型提供者和污染检测方法进行分类。这揭示了现有方法的漏洞，我们利用了一种简单但有效的污染技术（EAL），它能大幅提高基准测试性能，并完全回避当前的检测方法。

Feb, 2024

LLM 污染程度调查及 LLMSanitize 库

LLMs 应用的规模不断扩大，但同时也带来了污染问题，而模型的完整性对业务应用和筹款至关重要。本文调查了 LLMs 污染问题的最新研究，并通过开源 Python 库 LLMSanitize 实现了主要污染检测算法，以帮助社区跟踪 LLMs 的污染水平。

Mar, 2024

通过困惑度估计污染情况：量化语言模型评估中的记忆效应

最近的研究显示在大规模语言模型的训练语料中普遍存在数据污染问题，而现有的污染分析方法需要访问完整的训练数据，这常常限制了对这些模型的严格审计和准确评估。本文提出了一种新的方法来量化数据污染，通过困惑度来衡量污染程度，相关分析显示近期基础模型在流行的阅读理解和摘要化数据中存在显著的记忆化现象，而多项选择数据的污染程度较低。

Sep, 2023