多重检验程序对依赖性的稳健性
我们提出了一个通用的框架,用于构建针对大类非参数测试问题的强大的连续假设检验。该框架可以统一处理多个经典任务,如双样本测试、独立性测试和条件独立性测试,以及现代问题,如对机器学习模型的对抗鲁棒性测试。我们的方法对传统批量测试具有以下优势:1) 它持续监控在线数据流并有效地聚合针对零假设的证据,2) 它在不需要多重测试校正的情况下对类型 I 错误进行严格控制,3) 它根据问题的未知难度调整样本大小要求。我们在测试通过投票框架(testing-by-betting framework)中利用机器学习模型的表示能力方面开发了一种基于原则的方法,这是一种用于设计连续测试的博弈论方法。在合成和真实数据集上的实证结果表明,使用我们的通用框架实例化的测试在多个任务上与专门的基准测试相竞争。
Oct, 2023
在多重比较中,higher criticism 方法在 testing normal means 是否全部为零的情况下,还有一个小部分是否非零的方差都很小的测试问题中,可以采用最优化 z-score 检验方法来有效地解决此问题,并且当非零均值的振幅与非零均值的分数进行校准时,似然比检验仍然可以成功地分离两个假设。
Oct, 2004
本研究探讨了顺序非参数两样本和独立性检验的问题,提出了一种基于预测的赌博策略,用于解决高维结构化数据上核函数的选择问题。我们在实验中证明了这种方法优于基于核的方法,即使在数据分布随时间漂移的情况下,也仍然有效强大。
Apr, 2023
本研究提出了一种方法,可以在高维线性模型中构建一般假设的 p 值。该方法可用于测试单个回归参数或涉及多个甚至所有参数的假设,同时考虑到 p 值之间的依赖关系,进行多重比较校正。该技术基于 Ridge 估计和在高维度中的投影偏差上增加的修正项,我们证明了我们的 p 值具有强大的误差控制,并提供了充分的检测条件,同时在模拟实例和真实数据应用中演示了该方法。
Feb, 2012
本研究研究了不同隐私性的统计假设检验方法,包含常规与非参数检验方法,并使用特定于隐私数据的新型检验统计量,比较结果表明,我们的新型非参数检验方法在统计功效上有巨大改进。
Mar, 2019
本文研究了估计多重检验背景下的效应大小分布的问题。我们提出了一种简单、高效的估计器,可使用廉价的试验数据,在比识别发现类试验所需采样数量显著少的情况下,估计该分布。该估计器可用于保证未来试验中给定实验设计中将被发现的发现数量,并展示了在 Drosophila 上进行的流感抑制基因敲除试验数据的有效性。
Feb, 2020
通过模拟 TREC 数据集,对不同的测试、系统、主题集大小和效益测量进行了分析,并评估了统计显着性测试在信息检索数据中的行为,为从业者提供了建议。五种测试涉及统计显着性测试、T - 检验、Bootstrap 检验、排列检验和 Wilcoxon 检验。
May, 2019
文中提出了一种新的非参数化方法用于测试两个随机过程之间的独立性,使用了 Hilbert Schmidt 独立性准则(HSIC)作为检验统计量,该方法针对从随机过程中绘制的样本计算 HSIC 的渐近行为得到了建立,并且推荐了一种可替代的 p 值的一致估计,与线性方法相比,该新测试程序可以发现被线性方法忽略的依赖关系,而先前的自举程序会返回大量错误的结果。
Feb, 2014
研究估计大量相互独立测试的零假设中的错误假设数量的问题,提出了一族方法来建立这种比例的下限置信区间,主要依据是测试的 p 值。这项工作的动机是在天文学中发生的一种信号检测问题。
Jan, 2005