测试随机性
本文致力于在线测试数据交换性假设,通过构造交换性鞅并提供一些新的方法来测试其假设。我们的鞅方法与之前介绍的假设检验方法相比具有更高的灵活性,在 USPS 和 Statlog 卫星数据两个基准数据集上取得了良好的结果。
Apr, 2012
我们提出了一个通用的框架,用于构建针对大类非参数测试问题的强大的连续假设检验。该框架可以统一处理多个经典任务,如双样本测试、独立性测试和条件独立性测试,以及现代问题,如对机器学习模型的对抗鲁棒性测试。我们的方法对传统批量测试具有以下优势:1) 它持续监控在线数据流并有效地聚合针对零假设的证据,2) 它在不需要多重测试校正的情况下对类型 I 错误进行严格控制,3) 它根据问题的未知难度调整样本大小要求。我们在测试通过投票框架(testing-by-betting framework)中利用机器学习模型的表示能力方面开发了一种基于原则的方法,这是一种用于设计连续测试的博弈论方法。在合成和真实数据集上的实证结果表明,使用我们的通用框架实例化的测试在多个任务上与专门的基准测试相竞争。
Oct, 2023
本研究探讨了顺序非参数两样本和独立性检验的问题,提出了一种基于预测的赌博策略,用于解决高维结构化数据上核函数的选择问题。我们在实验中证明了这种方法优于基于核的方法,即使在数据分布随时间漂移的情况下,也仍然有效强大。
Apr, 2023
探究在高维情况下对分类器的精度验证,证明一种基于排列组合的测试方法具有连续性及德克斯特拉极限分布的高斯近似测试也具有连续性,并以高斯分布为例进一步研究了线性判别分析和 Hotelling's 测试等方法的功率。
Feb, 2016
提出了一种非参数顺序检验方法,可解决在线随机实验中出现的复杂度量的假设检验以及在持续监控下如何防止类型 I 错误膨胀的问题。该方法无需了解数据生成的概率分布,利用 Bootstrap 估计数据块的似然,然后采用混合序列概率比检验。在来自一家重要的在线电商网站的数据上验证了该过程。结果表明,该检验在任何时候都能控制 I 型错误,在在线随机实验中具有良好的功率,对于数据生成的分布错误具有鲁棒性,并且允许快速推断。
Oct, 2016
本文提出了一种建立在鲁棒性预测推断上的不确定性估计模型,使用 conformal inference 方法建立了准确覆盖测试数据分布的预测集,通过估计数据漂移量建立了鲁棒性,并在多个基准数据集上进行了实验证明了该方法的重要性。
Aug, 2020
研究了在名义概率分布受到建模误差和异常值影响的情况下的极小极大稳健假设检验问题,并设计了一个基于相对熵距离的稳健假设检验方案,该方案提高了对建模误差的稳健性,并且是之前 Levy 提出的工作的推广。然后,证明了可以通过复合不确定性类将此方案与 Huber 的稳健检验相结合,并证明了鞍值条件的存在。同时,将稳健度量方法扩展到了固定样本量和顺序概率比测试,并将组合模型推广到稳健估计问题。最后,模拟实验验证了所提出的论断。
Feb, 2015
本文主要介绍如何在多重假设检验中通过对空假设的控制以及对数据是否独立等因素的考虑,来有效地控制显著水平,同时探讨在不同的分布下,统计假设结果的线性相关性会带来的影响并提出解决方案。
Mar, 2009