图形二样本检验的实用方法

Nov, 2018

Practical methods for graph two-sample testing

Debarghya Ghoshdastidar, Ulrike von Luxburg

TL;DR本文针对大型图形的两样本检验问题，比较和探讨现有的理论检验方法及其自举变体的实际优劣，并提出两种运用渐近分布的新的检验方法，其较现有方法具有更低的计算复杂度和更高的可靠性。

Abstract

Hypothesis testing for graphs has been an important tool in applied research fields for more than two decades, and still remains a challenging problem as one often needs to draw inference from few replicates of large graphs. Recent studies in statistics and learning theory have provided some theoretical insights about such high-dimensional graph testing prob

graph hypothesis testing high-dimensional testing problems two-sample testing theoretical methods computational efficiency

发现论文，激发创造

利用网络统计量进行大型随机图的两样本检验

本文提出了在假设检验中对比 Facebook 和 LinkedIn 上的友谊网络的解决方案，利用网络统计学衡量网络。通过对网络统计学的集中度进行通用表述，揭示了一个自然的对策，实现了一致的双样本测试。本文还证明，对于某些网络统计量，所提出的测试是最小最优的。

May, 2017

一种基于图形的多元和对象数据双样本检验新方法

本文介绍了一种新的基于样本汇总上的相似性图构建的新型检验统计量，适用于多元数据和非欧几里得数据，可以通过定义样本空间上的不相似性度量，使用于匹配观测研究中的协变量平衡评估和比较网络数据等问题，并在模拟研究中表现出明显的功效提升。

Jul, 2013

无分布假设基于图的双样本检验的一般渐近框架

本文介绍了一种分布无关的基于图形的双样本检验方法，并提供了分析和比较其渐进性质的统一框架。该文章研究表明底层图形的组合特性对关联的双样本检验的性能产生影响，并且可以用于验证和决定在实践中使用哪种检验。

Aug, 2015

大规模属性图假设检验的基于采样的框架

这篇论文介绍了基于假设的图采样和假设测试框架，通过路径假设感知采样方法 PHASE 提高准确性和时间效率。实验证明，该框架能够有效利用常见的图采样方法进行假设测试，并且在准确性和时间效率方面具有优势。

Mar, 2024

非齐次随机图的双样本假设检验

本文以最小极小值检验的角度考虑解决在高维信息检测中，两个离散随机图集合的假设检验问题，并提出了 Frobenius 范数和算子范数算法，能在小样本量下有效地求解较为稀疏的两种份离散图模型问题。

Jul, 2017

协同的非参数双样本测试

本研究提出了一种在图结构环境下解决多个双样本检验问题的方法，通过非参数协同双样本检验框架（CTST），利用图结构并最小化对概率密度函数的假设，综合了 f - 差异度估计、核方法和多任务学习的元素。通过合成实验和监测地震活动的传感器网络，证明 CTST 优于现有的非参数统计检验方法，因为该方法能够考虑问题的几何特性。

Feb, 2024

一种使用随机投射在高维空间中实现更强大的双样本检验方法

在高维情形下考虑了检验两个多元正态分布均值差异的统计假设检验问题，其中引入了投影方法和 Hotelling T^2 统计量，并针对高维条件下的渐近推理，概述了测试的渐近功效函数以及通往提高其他最先进测试功效的充分条件，最后通过基于 ROC 曲线的实验，验证了该检验方法在高维数据中区分肿瘤数据种类时的优良性能。

Aug, 2011

深度实时假设测试

我们提出了一个通用的框架，用于构建针对大类非参数测试问题的强大的连续假设检验。该框架可以统一处理多个经典任务，如双样本测试、独立性测试和条件独立性测试，以及现代问题，如对机器学习模型的对抗鲁棒性测试。我们的方法对传统批量测试具有以下优势：1) 它持续监控在线数据流并有效地聚合针对零假设的证据，2) 它在不需要多重测试校正的情况下对类型 I 错误进行严格控制，3) 它根据问题的未知难度调整样本大小要求。我们在测试通过投票框架（testing-by-betting framework）中利用机器学习模型的表示能力方面开发了一种基于原则的方法，这是一种用于设计连续测试的博弈论方法。在合成和真实数据集上的实证结果表明，使用我们的通用框架实例化的测试在多个任务上与专门的基准测试相竞争。

Oct, 2023

适用于基因集检验的高维数据双样本检验

本文提出了一种面向高维数据的双样本均值检验方法，适用于大数据维度和小样本量的情况，并且无需显式地指定数据维度与样本量之间的条件，具有很大的灵活性。该方法可以用于检验基因集的显著性，有望在白血病数据的实证研究中获得应用。

Feb, 2010

估计非零假设数目和效应大小

本文研究了估计多重检验背景下的效应大小分布的问题。我们提出了一种简单、高效的估计器，可使用廉价的试验数据，在比识别发现类试验所需采样数量显著少的情况下，估计该分布。该估计器可用于保证未来试验中给定实验设计中将被发现的发现数量，并展示了在 Drosophila 上进行的流感抑制基因敲除试验数据的有效性。

Feb, 2020