Jun, 2013

算法协同作用的统计视角

TL;DR本文在大数据集上提出了算法杠杆效应的采样方法,通过样本采集分布来提高算法的计算效率,并在固定预测因子的线性回归模型中,提出了一种简单有效的框架来评估算法杠杆的统计性能。其结果表明核心的采样方法的统计性能既不会因为采用杠杆采样而主导也不会因采用均匀采样而优于杠杆采样,但其在最坏分析情况下,杠杆采样与均匀采样相比都能提供更好的结果。在理论性能基础上,本文提出并分析了两种新的杠杆算法,并在合成和真实数据集上进行了详细的实证评估。