深度实时假设测试

Oct, 2023

Deep anytime-valid hypothesis testing

Teodora Pandeva, Patrick Forré, Aaditya Ramdas, Shubhanshu Shekhar

TL;DR我们提出了一个通用的框架，用于构建针对大类非参数测试问题的强大的连续假设检验。该框架可以统一处理多个经典任务，如双样本测试、独立性测试和条件独立性测试，以及现代问题，如对机器学习模型的对抗鲁棒性测试。我们的方法对传统批量测试具有以下优势：1) 它持续监控在线数据流并有效地聚合针对零假设的证据，2) 它在不需要多重测试校正的情况下对类型 I 错误进行严格控制，3) 它根据问题的未知难度调整样本大小要求。我们在测试通过投票框架（testing-by-betting framework）中利用机器学习模型的表示能力方面开发了一种基于原则的方法，这是一种用于设计连续测试的博弈论方法。在合成和真实数据集上的实证结果表明，使用我们的通用框架实例化的测试在多个任务上与专门的基准测试相竞争。

Abstract

We propose a general framework for constructing powerful, sequential hypothesis tests for a large class of nonparametric testing problems. The null hypothesis for these problems is defined in an abstract form using the action of two known operators on the data distribution. This abstra

nonparametric testing problems sequential hypothesis tests two-sample testing independence testing adversarial robustness of machine learning models

发现论文，激发创造

序列预测双样本和独立性检验

本研究探讨了顺序非参数两样本和独立性检验的问题，提出了一种基于预测的赌博策略，用于解决高维结构化数据上核函数的选择问题。我们在实验中证明了这种方法优于基于核的方法，即使在数据分布随时间漂移的情况下，也仍然有效强大。

Apr, 2023

一种非参数序列检验用于在线随机实验

提出了一种非参数顺序检验方法，可解决在线随机实验中出现的复杂度量的假设检验以及在持续监控下如何防止类型 I 错误膨胀的问题。该方法无需了解数据生成的概率分布，利用 Bootstrap 估计数据块的似然，然后采用混合序列概率比检验。在来自一家重要的在线电商网站的数据上验证了该过程。结果表明，该检验在任何时候都能控制 I 型错误，在在线随机实验中具有良好的功率，对于数据生成的分布错误具有鲁棒性，并且允许快速推断。

Oct, 2016

测试随机性

本文通过回顾已知的在线检验方法，重点研究基于依从性鞅的方法，强调了概念和实践方面，并阐述了有效性和效率方面的结果。

Jun, 2019

迭代对数定理下的顺序非参数检验

该论文提出了一种新的算法框架，用于解决顺序假设检验问题，包括 A/B 测试、非参数双样本测试和独立性测试等。该算法具有线性时间和恒定空间计算的优势，并且在处理复杂问题时能够动态调整中止时间以适应，同时其零均值鞅的检验统计量也采用了一致的 LIL 控制拒绝门槛。

Jun, 2015

使用循环神经网络和模型无关强化学习进行未知环境中的主动假设检验

该研究提出一种深度强化学习和监督学习相结合的方法，用于解决在完全未知环境中的主动顺序假设测试问题。结果表明，与 Chernoff 测试相比，该方法在有限和无限视野问题中表现出竞争力并有时表现更好。

Mar, 2023

稠密高维线性模型中的线性假设检验

本研究提出了一种在高维线性模型中测试线性假设的方法，可以不对模型的大小（即模型的稀疏性或表示假设的加载向量）进行任何限制，并通过测试与新设计的重组回归模型相关的时刻条件来实现。

Oct, 2016

层次化测试设计用于模式识别

本文探讨了 “二十个问题” 的模式识别方法的理论基础，其中通过假设检验对可能的解释集合 Y 中的真实解释集合 Η 进行限制，提出了一种逐步测试策略，并针对测试成本和后期处理成本的总成本进行了优化。

Jul, 2005

快速可扩展的贝叶斯 AB 测试

通过使用分层贝叶斯估计方法，我们提出一种解决 AB 测试分析中常见限制的解决方案，包括多因素和因素之间的相关性、早期停止的顺序测试和从过去测试中提取综合全球学习的能力。通过数值模拟和大量实际 AB 测试，我们证明了这种方法的实际价值。

Jul, 2023

异常检测的零假设检验

本文研究使用不存在标签分类来进行异常检测，并设计了一种假设检验方法来排除仅有背景假设。通过测试两个数据集区域的统计独立性，我们能在不依赖定量异常得分或区域间背景估计外推的情况下排除仅有背景假设。我们的方法依赖于异常得分特征和数据集区域的条件独立性假设，这可以通过使用现有的去相关技术来保证。我们以 LHC Olympics 数据集为基准示例，证明互信息是测试统计独立性的合适方法，并且我们的方法即使在实际特征相关性存在的情况下，在不同信号分数下也表现出良好且稳健的性能。

Oct, 2022

训练神经网络中的变异性鲁棒非参数假设检验

基于网络输出的一个稳健假设检验框架，我们提出了一种新的分类模型之间的相似性度量方法，该方法可以适应经过训练模型的其他衍生量。

Oct, 2023