ACLApr, 2022

自然语言处理结果再现性的定量化评估

TL;DR本文描述并测试了一种基于计量学概念和定义的量化再现性评估(QRA)方法。 QRA 可以根据不同再现之间的分数和差异,为给定系统和评估措施估计再现性程度,并且我们在 18 个系统和评估措施组合上测试了 QRA,表明 QRA 方法产生的再现度分数不仅可以比较同一原始研究的多次再现,还可以比较不同原始研究的多次再现,并可用于发现再现之间的差异并得出改进再现性的结论。