AAAIDec, 2023

在语言模型评估中避免数据污染:使用最新材料进行动态测试构建

TL;DR利用最新的文本构建不受数据污染的阅读理解评估方法 LatestEval,通过仅使用最近时间窗口内发布的文本,并避免与预训练语言模型的训练语料库重叠,从而鼓励模型基于剩余的上下文推断答案而不是简单地复制粘贴,实验表明,在 LatestEval 上,语言模型显示出可忽略的记忆行为,相较于之前的基准测试,减少了数据污染风险并且评估更具鲁棒性。