Nov, 2020

对Winograd-Style任务数据集重叠的分析

TL;DR通过研究神经语言模型在Winograd Schema Challenge任务中的表现,我们发现测试实例与神经语言模型训练语料库之间的重叠对模型分类准确性具有重要影响。我们发现现有训练语料库与测试实例的重叠具有较高比例,导致模型在具有最小重叠的实例上表现显著下降。基于这些结果,我们构建了KnowRef-60K数据集,它是至今为止最大的Winograd Schema Challenge风格的常识推理语料库,并且与当前的预训练语料库重叠比例显著降低。