ACLFeb, 2021

记忆化 VS 泛化:量化自然语言处理性能评估中的数据泄漏

TL;DR利用公共数据集来评估自然语言处理(NLP)中最先进方法的有效性和普适性时,训练和测试数据集之间的重叠会导致结果被高估,为了评估这些方法在实际场景中的性能,我们发现在用于评估 NLP 任务的几个公开数据集中,存在训练数据泄漏到测试数据中的情况,对此进行研究以评估泄漏对模型记忆与泛化能力的影响。