Sep, 2023

通过困惑度估计污染情况:量化语言模型评估中的记忆效应

TL;DR最近的研究显示在大规模语言模型的训练语料中普遍存在数据污染问题,而现有的污染分析方法需要访问完整的训练数据,这常常限制了对这些模型的严格审计和准确评估。本文提出了一种新的方法来量化数据污染,通过困惑度来衡量污染程度,相关分析显示近期基础模型在流行的阅读理解和摘要化数据中存在显著的记忆化现象,而多项选择数据的污染程度较低。