测试随机性

Jun, 2019

Testing randomness

Vladimir Vovk

TL;DR本文通过回顾已知的在线检验方法，重点研究基于依从性鞅的方法，强调了概念和实践方面，并阐述了有效性和效率方面的结果。

Abstract

The hypothesis of randomness is fundamental in statistical machine learning and in many areas of nonparametric statistics; it says that the observations are assumed to be independent and coming from the same unkn

randomness nonparametric statistics testing conformal martingales exchangeability

发现论文，激发创造

在线测试可交换性的插件马丁格尔

本文致力于在线测试数据交换性假设，通过构造交换性鞅并提供一些新的方法来测试其假设。我们的鞅方法与之前介绍的假设检验方法相比具有更高的灵活性，在 USPS 和 Statlog 卫星数据两个基准数据集上取得了良好的结果。

Apr, 2012

深度实时假设测试

我们提出了一个通用的框架，用于构建针对大类非参数测试问题的强大的连续假设检验。该框架可以统一处理多个经典任务，如双样本测试、独立性测试和条件独立性测试，以及现代问题，如对机器学习模型的对抗鲁棒性测试。我们的方法对传统批量测试具有以下优势：1) 它持续监控在线数据流并有效地聚合针对零假设的证据，2) 它在不需要多重测试校正的情况下对类型 I 错误进行严格控制，3) 它根据问题的未知难度调整样本大小要求。我们在测试通过投票框架（testing-by-betting framework）中利用机器学习模型的表示能力方面开发了一种基于原则的方法，这是一种用于设计连续测试的博弈论方法。在合成和真实数据集上的实证结果表明，使用我们的通用框架实例化的测试在多个任务上与专门的基准测试相竞争。

Oct, 2023

序列预测双样本和独立性检验

本研究探讨了顺序非参数两样本和独立性检验的问题，提出了一种基于预测的赌博策略，用于解决高维结构化数据上核函数的选择问题。我们在实验中证明了这种方法优于基于核的方法，即使在数据分布随时间漂移的情况下，也仍然有效强大。

Apr, 2023

作为双样本检验代理的分类准确性

探究在高维情况下对分类器的精度验证，证明一种基于排列组合的测试方法具有连续性及德克斯特拉极限分布的高斯近似测试也具有连续性，并以高斯分布为例进一步研究了线性判别分析和 Hotelling's 测试等方法的功率。

Feb, 2016

一种非参数序列检验用于在线随机实验

提出了一种非参数顺序检验方法，可解决在线随机实验中出现的复杂度量的假设检验以及在持续监控下如何防止类型 I 错误膨胀的问题。该方法无需了解数据生成的概率分布，利用 Bootstrap 估计数据块的似然，然后采用混合序列概率比检验。在来自一家重要的在线电商网站的数据上验证了该过程。结果表明，该检验在任何时候都能控制 I 型错误，在在线随机实验中具有良好的功率，对于数据生成的分布错误具有鲁棒性，并且允许快速推断。

Oct, 2016

稳健验证：即使分布发生偏移，也能自信地做出预测

本文提出了一种建立在鲁棒性预测推断上的不确定性估计模型，使用 conformal inference 方法建立了准确覆盖测试数据分布的预测集，通过估计数据漂移量建立了鲁棒性，并在多个基准数据集上进行了实验证明了该方法的重要性。

Aug, 2020

训练神经网络中的变异性鲁棒非参数假设检验

基于网络输出的一个稳健假设检验框架，我们提出了一种新的分类模型之间的相似性度量方法，该方法可以适应经过训练模型的其他衍生量。

Oct, 2023

极小极大鲁棒假设检验

研究了在名义概率分布受到建模误差和异常值影响的情况下的极小极大稳健假设检验问题，并设计了一个基于相对熵距离的稳健假设检验方案，该方案提高了对建模误差的稳健性，并且是之前 Levy 提出的工作的推广。然后，证明了可以通过复合不确定性类将此方案与 Huber 的稳健检验相结合，并证明了鞍值条件的存在。同时，将稳健度量方法扩展到了固定样本量和顺序概率比测试，并将组合模型推广到稳健估计问题。最后，模拟实验验证了所提出的论断。

Feb, 2015

多重检验程序对依赖性的稳健性

本文主要介绍如何在多重假设检验中通过对空假设的控制以及对数据是否独立等因素的考虑，来有效地控制显著水平，同时探讨在不同的分布下，统计假设结果的线性相关性会带来的影响并提出解决方案。

Mar, 2009

重训练或不重训练：用于变点检测的一致性测试鞅

本文介绍了一种基于交换鞅的策略来检测数据分布变化的算法训练方案，并基于符合性预测提出了一种通用的预测算法重新训练方法，初步探讨了其效率。

Feb, 2021