深度意义 - 神经网络时代的简单且有意义的统计显著性测试

本文提出了一种基于现有的可解释人工智能（XAI）方法的、适用于机器学习的无模型假设检验框架，其中利用 Fisher 的变量置换算法计算等效于 OLS 回归模型的 Cohen's f2 的效应量度量，并将 Mann-Kendall 检验和 Theil-Sen 估计器应用于 Apley 的累积局部效应图，以指定变量的影响方向和统计显著性。该方法在人工数据集和社会调查中得以证明其有效性。

Feb, 2023

模型基准度量方法的忠实模型评估

统计学意义检验用于自然语言处理（NLP）中，用于确定研究或实验的结果是否可能是由于偶然性还是反映了真实关系。我们在模型基于度量的统计显著性测试中，考虑模型误差对样本方差的影响，并通过公共基准数据集和生产系统的实验，展示了在某些实验中，考虑模型误差计算样本方差对模型基于度量的结果产生了改变。

Dec, 2023

训练神经网络中的变异性鲁棒非参数假设检验

基于网络输出的一个稳健假设检验框架，我们提出了一种新的分类模型之间的相似性度量方法，该方法可以适应经过训练模型的其他衍生量。

Oct, 2023

信息检索中的统计显著性检验：对 I 型、II 型和 III 型误差的实证分析

通过模拟 TREC 数据集，对不同的测试、系统、主题集大小和效益测量进行了分析，并评估了统计显着性测试在信息检索数据中的行为，为从业者提供了建议。五种测试涉及统计显着性测试、T - 检验、Bootstrap 检验、排列检验和 Wilcoxon 检验。

May, 2019

TriSig：三元组聚类的统计显著性评估

提出一种统计框架来评估张量数据中的模式偏离零期望的概率，以减轻假阳性 / 虚假发现，并进一步修剪搜索空间，降低计算复杂度。结果表明，这种评估可以纳入现有的三元聚类算法中，并揭示了一些三元聚类算法的弱点。

Jun, 2023

NLPStatTest：比较 NLP 系统性能的工具包

本文提出了一种基于效应大小估计的三阶段比较 NLP 系统性能的方法，并提供了一个工具包 NLPStatTest，该工具包可以自动化处理上传的 NLP 系统评估分数，进行合适的显著性检验和效应大小估计，并进行功效分析来估计 II 型错误。这个工具包提供了一个便捷和系统的方法来比较 NLP 系统性能，超越了统计显著性检验。

Nov, 2020

利用分数分布比较信息检索评估的统计显著性检验

本文针对信息检索领域中使用的统计方法进行了探讨，并提出了一种新的方法 —— 基于得分分布模拟进行搜索结果的统计显著性测试来比较多个搜索系统的性能，发现在具备理论真值的条件下，符号检验和 Wilcoxon 符号检验比排列检验和 t 检验具有更高的检验效力。启发式方法的检验误差较低，但效力不如其他方法。

Jan, 2019