Jul, 2024

大型语言模型中的数据污染分类

TL;DR大型语言模型在广泛的网络语料库上进行预训练,展示出在多个下游任务上出色的性能。然而,人们越来越担心数据污染现象,即评估数据集可能包含在预训练语料库中,从而夸大了模型的性能。去污染作为一种检测和移除这些数据的过程,是一个潜在的解决方案;然而,这些污染物可能来自于测试集的修改版本,在去污染过程中逃过了检测。对于不同类型的污染如何影响语言模型在下游任务中的性能并未完全了解。我们提出了一个对在预训练阶段遇到的各种类型污染进行分类的分类法,并确定哪些类型存在最高风险。我们分析了污染对两个关键的自然语言处理任务(摘要生成和问答)性能的影响,揭示了不同类型污染如何在评估过程中影响任务性能。