本文提出了一种基于效应大小估计的三阶段比较 NLP 系统性能的方法,并提供了一个工具包 NLPStatTest,该工具包可以自动化处理上传的 NLP 系统评估分数,进行合适的显著性检验和效应大小估计,并进行功效分析来估计 II 型错误。这个工具包提供了一个便捷和系统的方法来比较 NLP 系统性能,超越了统计显著性检验。
Nov, 2020
该研究探讨了在自然语言处理实证研究中,常用统计方法在独立性假设违反情况下,低估了统计差异的问题,并提出了一些不需要独立性假设的有效测试方法。
Aug, 2000
该论文提出了一种重复性分析框架,用于对 NLP 任务算法的多个比较进行统计学分析,相对于 NLP 文献中目前未经统计证明的传统做法具有显著的理论优势,并通过多个应用案例展示了其实证价值。
Sep, 2017
该论文探讨了自然语言处理中假设评估的问题,提出使用贝叶斯方法评估假设,并提供了针对该领域的最佳实践和指南。
Nov, 2019
本文针对机器学习和深度学习领域中的统计显著性检验问题,提供易用的软件包含多种适合研究需求和可用性的显著性检验和实用功能。
Apr, 2022
统计学意义检验用于自然语言处理(NLP)中,用于确定研究或实验的结果是否可能是由于偶然性还是反映了真实关系。我们在模型基于度量的统计显著性测试中,考虑模型误差对样本方差的影响,并通过公共基准数据集和生产系统的实验,展示了在某些实验中,考虑模型误差计算样本方差对模型基于度量的结果产生了改变。
Dec, 2023
通过模拟 TREC 数据集,对不同的测试、系统、主题集大小和效益测量进行了分析,并评估了统计显着性测试在信息检索数据中的行为,为从业者提供了建议。五种测试涉及统计显着性测试、T - 检验、Bootstrap 检验、排列检验和 Wilcoxon 检验。
May, 2019
本文针对信息检索领域中使用的统计方法进行了探讨,并提出了一种新的方法 —— 基于得分分布模拟进行搜索结果的统计显著性测试来比较多个搜索系统的性能,发现在具备理论真值的条件下,符号检验和 Wilcoxon 符号检验比排列检验和 t 检验具有更高的检验效力。启发式方法的检验误差较低,但效力不如其他方法。
Jan, 2019
本文研究了模型性能评估方法的可靠性问题,并探讨了仅基于分割数据集评估模型性能的评估方法存在的缺陷。作者提出了基于分数分布的评估方法来代替传统评估方法。
Mar, 2018
提出了一种全贝叶斯显著性测试方法(nFBST),采用贝叶斯神经网络来拟合非线性和多维关系,并通过计算证据值避免了传统方法中的理论派生难题,可以测试全局、局部和实例显著性,并且是一个可根据所选择的度量进行扩展的通用框架。
Jan, 2024