BriefGPT.xyz
Ask
alpha
关键词
train and test datasets overlap
搜索结果 - 1
ACL
记忆化 VS 泛化:量化自然语言处理性能评估中的数据泄漏
利用公共数据集来评估自然语言处理(NLP)中最先进方法的有效性和普适性时,训练和测试数据集之间的重叠会导致结果被高估,为了评估这些方法在实际场景中的性能,我们发现在用于评估 NLP 任务的几个公开数据集中,存在训练数据泄漏到测试数据中的情况
→
PDF
3 years ago
Prev
Next