Nov, 2023

测试未标记数据库的依赖性

TL;DR该研究探讨了如何决定两个随机数据库之间是否存在统计依赖关系,并通过零假设和备择假设构建了一个假设检验问题,其中在零假设下,这两个数据库是统计独立的,而在备择假设下,存在一个未知的行排列使得两个数据库具有已知的联合分布但与零假设的边际分布相同。我们通过研究数据集生成分布的特征、$n$、$d$ 等因素,确定了信息理论上不可能和可能进行最优检验的阈值。此外,我们还分析了当 $d$ 固定时的情况,并推导出了强(错误几乎为零)和弱检测的下界和上界。