评估大型语言模型中的污染:引入LogProber方法
在理解大型语言模型(LLM)对其他任务的有效性中,数据污染(即,在训练数据中存在来自下游任务的测试数据)可能是一个重要问题。我们提出了一种简单但有效的方法来识别LLMs中的数据污染,该方法通过识别来自小型随机样本的个别实例中的潜在污染,然后评估整个数据集分区是否受到了污染。
Aug, 2023
最近的研究显示在大规模语言模型的训练语料中普遍存在数据污染问题,而现有的污染分析方法需要访问完整的训练数据,这常常限制了对这些模型的严格审计和准确评估。本文提出了一种新的方法来量化数据污染,通过困惑度来衡量污染程度,相关分析显示近期基础模型在流行的阅读理解和摘要化数据中存在显著的记忆化现象,而多项选择数据的污染程度较低。
Sep, 2023
我们提出了数据污染测验,一种用于检测大型语言模型(LLMs)中数据污染并估计其量的简单有效方法。我们将数据污染检测构建为一系列多项选择问题,创建了三个扰动版本的每个数据集实例。通过仅进行词级扰动,用其上下文同义词替换单词,确保其语义和句子结构与原始实例完全相同,我们设计了一个测验格式。这些扰动版本与原始实例一起构成测验中的选择项。当只有确切的措辞可以区分这些选择项时,LLM在识别选择项中的原始实例时,如果在预训练阶段记忆了该实例,则选择原始实例,这是LLM固有的特性。如果LLM在测验中的表现超过了随机机会所示,那么数据集划分就被标记为被污染。我们的评估涵盖了七个数据集及其相应的划分(训练和测试/验证),在两种最先进的LLMs:GPT-4和GPT-3.5上进行。尽管无法获得预训练数据,我们的结果表明,我们的方法不仅增强了对数据污染的检测,还可以在污染信号较弱时提供准确的估计。
Nov, 2023
本文研究了语言模型在预训练阶段遭受数据污染的影响,探索了文本污染和真实数据污染对模型性能的影响,调查了不同下游任务中污染的重复效应,并指出了当前LLM报告中关于污染定义的局限性和不足之处。研究结果为了解数据污染对语言模型的影响提供了新的见解,并强调在LLM研究中进行独立、全面的污染评估的必要性。
Jan, 2024
我们提出了基于LLMs输出分布的数据污染检测方法CDD,并通过修正LLMs输出分布的方法TED,有效地检测和减轻数据污染的影响。实验结果表明,CDD在准确度、F1得分和AUC指标方面相对其他方法平均提升了21.8%-30.2%,TED在24种设置和21种污染程度下成功地减轻数据污染引起的性能下降高达66.9%。实际应用中,我们发现ChatGPT在HumanEval基准中存在受数据污染的高风险。
Feb, 2024
LLMs应用的规模不断扩大,但同时也带来了污染问题,而模型的完整性对业务应用和筹款至关重要。本文调查了LLMs污染问题的最新研究,并通过开源Python库LLMSanitize实现了主要污染检测算法,以帮助社区跟踪LLMs的污染水平。
Mar, 2024
开发大型语言模型的不透明性引起了关于潜在的训练数据污染的担忧。我们提出了一种基于跨语言的深层污染形式,可以欺骗传统的检测方法。我们还探讨了跨语言污染在解释语言模型的工作机制和提升多语言能力方面的潜在用途。
Jun, 2024
数据污染在大型语言模型(LLMs)时代引起了越来越多的关注,由于依赖于广泛来源于互联网的训练语料库。重叠训练语料库与评估基准的问题(称为污染)已成为重要的研究焦点。本文介绍了数据污染领域的综合调查,阐述了关键问题、方法和迄今为止的研究结果,并重点关注需要进一步研究和发展的领域。该调查对数据污染研究的最新进展进行了简明概述,为未来研究提供了清晰的指南。
Jun, 2024
大型语言模型在广泛的网络语料库上进行预训练,展示出在多个下游任务上出色的性能。然而,人们越来越担心数据污染现象,即评估数据集可能包含在预训练语料库中,从而夸大了模型的性能。去污染作为一种检测和移除这些数据的过程,是一个潜在的解决方案;然而,这些污染物可能来自于测试集的修改版本,在去污染过程中逃过了检测。对于不同类型的污染如何影响语言模型在下游任务中的性能并未完全了解。我们提出了一个对在预训练阶段遇到的各种类型污染进行分类的分类法,并确定哪些类型存在最高风险。我们分析了污染对两个关键的自然语言处理任务(摘要生成和问答)性能的影响,揭示了不同类型污染如何在评估过程中影响任务性能。
Jul, 2024