Jul, 2023

基于统计的列子集选择视角

TL;DR在这篇论文中,我们研究了从大数据集中选择一个小的代表性变量子集的问题,并且证明了计算机科学文献中的维数约简问题(Column Subset Selection)和统计学文献中的寻找最大信息变量集的问题是等价的,同时也可以在一定的半参数模型中视为最大似然估计。利用这些连接,我们展示了如何在仅使用原始数据集的汇总统计信息的情况下有效地进行维数约简(Column Subset Selection),如何在出现缺失和 / 或被审查数据的情况下进行维数约简(Column Subset Selection),以及如何在假设检验框架下选择维数约简(Column Subset Selection)的子集大小。