大型语言模型的数据污染问题及对基准测试的影响进行了全面纵向分析,结果表明数据污染现象显著存在,这项研究为研究现代模型中数据污染问题的严格分析奠定了基础,并提出了在大型语言模型时代进行基准测试的最佳实践和未来步骤。
Oct, 2023
在理解大型语言模型(LLM)对其他任务的有效性中,数据污染(即,在训练数据中存在来自下游任务的测试数据)可能是一个重要问题。我们提出了一种简单但有效的方法来识别 LLMs 中的数据污染,该方法通过识别来自小型随机样本的个别实例中的潜在污染,然后评估整个数据集分区是否受到了污染。
Aug, 2023
我们提出了数据污染测验,一种用于检测大型语言模型(LLMs)中数据污染并估计其量的简单有效方法。我们将数据污染检测构建为一系列多项选择问题,创建了三个扰动版本的每个数据集实例。通过仅进行词级扰动,用其上下文同义词替换单词,确保其语义和句子结构与原始实例完全相同,我们设计了一个测验格式。这些扰动版本与原始实例一起构成测验中的选择项。当只有确切的措辞可以区分这些选择项时,LLM 在识别选择项中的原始实例时,如果在预训练阶段记忆了该实例,则选择原始实例,这是 LLM 固有的特性。如果 LLM 在测验中的表现超过了随机机会所示,那么数据集划分就被标记为被污染。我们的评估涵盖了七个数据集及其相应的划分(训练和测试 / 验证),在两种最先进的 LLMs:GPT-4 和 GPT-3.5 上进行。尽管无法获得预训练数据,我们的结果表明,我们的方法不仅增强了对数据污染的检测,还可以在污染信号较弱时提供准确的估计。
Nov, 2023
我们通过检测数据污染并提出 “Testset Slot Guessing” 方法,发现商业化的 LLM 在评估基准中有明显的性能改进,并呼吁在该领域使用更强大的评估方法和基准。
该研究综合研究了大型语言模型在代码生成任务中的数据污染问题,分析了常见代码生成基准测试与预训练语料之间的重叠程度,并揭示了类似训练解决方案出现时模型性能显著提高的现象,同时分析了模型大小、问题难度和问题长度等因素对模型记忆和泛化的影响。
Mar, 2024
本文研究了语言模型在预训练阶段遭受数据污染的影响,探索了文本污染和真实数据污染对模型性能的影响,调查了不同下游任务中污染的重复效应,并指出了当前 LLM 报告中关于污染定义的局限性和不足之处。研究结果为了解数据污染对语言模型的影响提供了新的见解,并强调在 LLM 研究中进行独立、全面的污染评估的必要性。
Jan, 2024
该论文讨论了自然语言处理任务的评估存在的问题,并提出了数据污染以及针对数据污染的自动检测和提示措施。
大型语言模型的数据污染问题及其对应的检查与净化方法
该研究报告介绍了 Llama 系列模型的开源数据污染报告,对六个热门的多项选择问答基准进行了分析,量化了它们与 Llama 的训练集的重叠情况。发现基准中存在 1% 至 8.7% 不同程度的污染。比较还显示,与干净的子集相比,Llama 模型在被污染的子集上可以获得超过 5% 的更高准确率。数据和代码可在链接中获得。
大型语言模型如 GPT-4、Claude-3 和 Gemini 的快速发展已经改变了自然语言处理领域,但也引发了一个重大问题,即基准数据污染(BDC)。本文回顾了 LLM 评估中复杂的 BDC 挑战,并探讨了缓解传统基准风险的替代评估方法。本文还分析了缓解 BDC 风险的挑战和未来发展方向,突出了这一问题的复杂性和确保 LLM 评估在实际应用中可靠性的创新解决方案的需求。
Jun, 2024