深度意义 - 神经网络时代的简单且有意义的统计显著性测试
提出了一种全贝叶斯显著性测试方法(nFBST),采用贝叶斯神经网络来拟合非线性和多维关系,并通过计算证据值避免了传统方法中的理论派生难题,可以测试全局、局部和实例显著性,并且是一个可根据所选择的度量进行扩展的通用框架。
Jan, 2024
本文提出了一种基于现有的可解释人工智能(XAI)方法的、适用于机器学习的无模型假设检验框架,其中利用 Fisher 的变量置换算法计算等效于 OLS 回归模型的 Cohen's f2 的效应量度量,并将 Mann-Kendall 检验和 Theil-Sen 估计器应用于 Apley 的累积局部效应图,以指定变量的影响方向和统计显著性。该方法在人工数据集和社会调查中得以证明其有效性。
Feb, 2023
统计学意义检验用于自然语言处理(NLP)中,用于确定研究或实验的结果是否可能是由于偶然性还是反映了真实关系。我们在模型基于度量的统计显著性测试中,考虑模型误差对样本方差的影响,并通过公共基准数据集和生产系统的实验,展示了在某些实验中,考虑模型误差计算样本方差对模型基于度量的结果产生了改变。
Dec, 2023
通过模拟 TREC 数据集,对不同的测试、系统、主题集大小和效益测量进行了分析,并评估了统计显着性测试在信息检索数据中的行为,为从业者提供了建议。五种测试涉及统计显着性测试、T - 检验、Bootstrap 检验、排列检验和 Wilcoxon 检验。
May, 2019
提出一种统计框架来评估张量数据中的模式偏离零期望的概率,以减轻假阳性 / 虚假发现,并进一步修剪搜索空间,降低计算复杂度。结果表明,这种评估可以纳入现有的三元聚类算法中,并揭示了一些三元聚类算法的弱点。
Jun, 2023
本文提出了一种基于效应大小估计的三阶段比较 NLP 系统性能的方法,并提供了一个工具包 NLPStatTest,该工具包可以自动化处理上传的 NLP 系统评估分数,进行合适的显著性检验和效应大小估计,并进行功效分析来估计 II 型错误。这个工具包提供了一个便捷和系统的方法来比较 NLP 系统性能,超越了统计显著性检验。
Nov, 2020
本文针对信息检索领域中使用的统计方法进行了探讨,并提出了一种新的方法 —— 基于得分分布模拟进行搜索结果的统计显著性测试来比较多个搜索系统的性能,发现在具备理论真值的条件下,符号检验和 Wilcoxon 符号检验比排列检验和 t 检验具有更高的检验效力。启发式方法的检验误差较低,但效力不如其他方法。
Jan, 2019