ACLNov, 2020

NLPStatTest:比较 NLP 系统性能的工具包

TL;DR本文提出了一种基于效应大小估计的三阶段比较 NLP 系统性能的方法,并提供了一个工具包 NLPStatTest,该工具包可以自动化处理上传的 NLP 系统评估分数,进行合适的显著性检验和效应大小估计,并进行功效分析来估计 II 型错误。这个工具包提供了一个便捷和系统的方法来比较 NLP 系统性能,超越了统计显著性检验。