NLPStatTest：比较 NLP 系统性能的工具包

ACLNov, 2020

NLPStatTest：比较 NLP 系统性能的工具包

NLPStatTest: A Toolkit for Comparing NLP System Performance

Haotian Zhu, Denise Mak, Jesse Gioannini, Fei Xia

TL;DR本文提出了一种基于效应大小估计的三阶段比较 NLP 系统性能的方法，并提供了一个工具包 NLPStatTest，该工具包可以自动化处理上传的 NLP 系统评估分数，进行合适的显著性检验和效应大小估计，并进行功效分析来估计 II 型错误。这个工具包提供了一个便捷和系统的方法来比较 NLP 系统性能，超越了统计显著性检验。

Abstract

statistical significance testing centered on p-values is commonly used to compare nlp system performance, but →

nlp system performance comparison p-values effect size statistical significance

发现论文，激发创造

自然语言处理任务推荐的统计显著性检验

该研究论文讨论了如何通过有效的统计显著性测试来证明自然语言处理 (NLP) 算法的优越性，并提出了针对该领域常见任务和评估指标的统计测试方法。

Sep, 2018

并非所有断言都是平等的：选择正确的统计方法评估假设

该论文探讨了自然语言处理中假设评估的问题，提出使用贝叶斯方法评估假设，并提供了针对该领域的最佳实践和指南。

Nov, 2019

更准确的结果差异统计学显著性检验

该研究探讨了在自然语言处理实证研究中，常用统计方法在独立性假设违反情况下，低估了统计差异的问题，并提出了一些不需要独立性假设的有效测试方法。

Aug, 2000

模型基准度量方法的忠实模型评估

统计学意义检验用于自然语言处理（NLP）中，用于确定研究或实验的结果是否可能是由于偶然性还是反映了真实关系。我们在模型基于度量的统计显著性测试中，考虑模型误差对样本方差的影响，并通过公共基准数据集和生产系统的实验，展示了在某些实验中，考虑模型误差计算样本方差对模型基于度量的结果产生了改变。

Dec, 2023

自然语言处理的可复现性分析：用多个数据集测试意义

该论文提出了一种重复性分析框架，用于对 NLP 任务算法的多个比较进行统计学分析，相对于 NLP 文献中目前未经统计证明的传统做法具有显著的理论优势，并通过多个应用案例展示了其实证价值。

Sep, 2017

寻找最先进状态时，请勿忘记差异和置信区间

本文主张广泛使用自助法置信区间来比较自然语言处理系统的性能，而非使用最先进技术（SOTA）和统计显著性检验。两个案例分析展示了其主要优点，即突出两个系统性能差异并帮助评估一个系统优于另一个系统的程度。同时还提供了一个用于获取这些置信区间的 Python 模块，以及一个用于实现配对样本的 Fisher-Pitman 检验的第二个函数，这些功能在 PyPI 上都是免费提供的。

May, 2022

信息检索中的统计显著性检验：对 I 型、II 型和 III 型误差的实证分析

通过模拟 TREC 数据集，对不同的测试、系统、主题集大小和效益测量进行了分析，并评估了统计显着性测试在信息检索数据中的行为，为从业者提供了建议。五种测试涉及统计显着性测试、T - 检验、Bootstrap 检验、排列检验和 Wilcoxon 检验。

May, 2019

自然语言处理竞赛中系统性能分析

合作竞争的科学和技术领域变得越来越受欢迎。本文描述了一种评估方法来对比竞赛结果和竞争。这种方法具有普适性，但是以八个自然语言竞赛为案例进行了说明，涉及分类和回归问题。所提出的方法具有多种优势，包括与修正机制的即插即用比较和置信区间的包含。此外，我们引入了一些指标，使组织者能够评估竞赛的难度。我们的分析显示了我们方法在有效评估竞赛结果方面的潜在有用性。

Mar, 2024

微弱的力量带来巨大的责任

该论文通过元分析现有的自然语言处理论文和数据集，表征了一系列设置的典型统计功率，最终得出结论，在自然语言处理文献中，实验功率不足是常见的。作者还概述了 NLP 统计功率分析的最佳实践，并发布了一系列笔记本来帮助未来的研究者进行统计功率分析。

Oct, 2020

比平均水平更好：自然语言处理系统的成对评估

本 paper 探讨了语言处理领域中评估模型常使用的平均值等聚合方法存在的缺陷，并通过理论与实验证明采用基于对比的聚合方法如测量模型间比较的 Bradley-Terry（BT）模型可以更好的反映模型之间的差异。最后，研究提供了一个可供实用的工具来辅助基于 BT 方法进行实验评估。

Oct, 2021