自然语言处理任务推荐的统计显著性检验

Sep, 2018

自然语言处理任务推荐的统计显著性检验

Appendix - Recommended Statistical Significance Tests for NLP Tasks

Rotem Dror, Roi Reichart

TL;DR该研究论文讨论了如何通过有效的统计显著性测试来证明自然语言处理 (NLP) 算法的优越性，并提出了针对该领域常见任务和评估指标的统计测试方法。

Abstract

statistical significance testing plays an important role when drawing conclusions from experimental results in nlp papers. Particularly, it is a valuable tool when one would like to establish the superiority of o

statistical significance testing nlp papers algorithm superiority valid statistical tests evaluation measures

发现论文，激发创造

NLPStatTest：比较 NLP 系统性能的工具包

本文提出了一种基于效应大小估计的三阶段比较 NLP 系统性能的方法，并提供了一个工具包 NLPStatTest，该工具包可以自动化处理上传的 NLP 系统评估分数，进行合适的显著性检验和效应大小估计，并进行功效分析来估计 II 型错误。这个工具包提供了一个便捷和系统的方法来比较 NLP 系统性能，超越了统计显著性检验。

Nov, 2020

更准确的结果差异统计学显著性检验

该研究探讨了在自然语言处理实证研究中，常用统计方法在独立性假设违反情况下，低估了统计差异的问题，并提出了一些不需要独立性假设的有效测试方法。

Aug, 2000

自然语言处理的可复现性分析：用多个数据集测试意义

该论文提出了一种重复性分析框架，用于对 NLP 任务算法的多个比较进行统计学分析，相对于 NLP 文献中目前未经统计证明的传统做法具有显著的理论优势，并通过多个应用案例展示了其实证价值。

Sep, 2017

并非所有断言都是平等的：选择正确的统计方法评估假设

该论文探讨了自然语言处理中假设评估的问题，提出使用贝叶斯方法评估假设，并提供了针对该领域的最佳实践和指南。

Nov, 2019

深度意义 - 神经网络时代的简单且有意义的统计显著性测试

本文针对机器学习和深度学习领域中的统计显著性检验问题，提供易用的软件包含多种适合研究需求和可用性的显著性检验和实用功能。

Apr, 2022

模型基准度量方法的忠实模型评估

统计学意义检验用于自然语言处理（NLP）中，用于确定研究或实验的结果是否可能是由于偶然性还是反映了真实关系。我们在模型基于度量的统计显著性测试中，考虑模型误差对样本方差的影响，并通过公共基准数据集和生产系统的实验，展示了在某些实验中，考虑模型误差计算样本方差对模型基于度量的结果产生了改变。

Dec, 2023

信息检索中的统计显著性检验：对 I 型、II 型和 III 型误差的实证分析

通过模拟 TREC 数据集，对不同的测试、系统、主题集大小和效益测量进行了分析，并评估了统计显着性测试在信息检索数据中的行为，为从业者提供了建议。五种测试涉及统计显着性测试、T - 检验、Bootstrap 检验、排列检验和 Wilcoxon 检验。

May, 2019

利用分数分布比较信息检索评估的统计显著性检验

本文针对信息检索领域中使用的统计方法进行了探讨，并提出了一种新的方法 —— 基于得分分布模拟进行搜索结果的统计显著性测试来比较多个搜索系统的性能，发现在具备理论真值的条件下，符号检验和 Wilcoxon 符号检验比排列检验和 t 检验具有更高的检验效力。启发式方法的检验误差较低，但效力不如其他方法。

Jan, 2019

比较单个性能得分并不能得出关于机器学习方法的结论

本文研究了模型性能评估方法的可靠性问题，并探讨了仅基于分割数据集评估模型性能的评估方法存在的缺陷。作者提出了基于分数分布的评估方法来代替传统评估方法。

Mar, 2018

神经网络的全贝叶斯显著性检验

提出了一种全贝叶斯显著性测试方法（nFBST），采用贝叶斯神经网络来拟合非线性和多维关系，并通过计算证据值避免了传统方法中的理论派生难题，可以测试全局、局部和实例显著性，并且是一个可根据所选择的度量进行扩展的通用框架。

Jan, 2024