Nov, 2015

利用信息控制偏差:数据探索过拟合的程度如何?

TL;DR提出了一种基于信息使用的方法来量化和限制任意探索性分析的偏差和其他误差指标,在此基础上分析和评估了过滤、排名选择和聚类等特定探索性分析方式的偏差。同时,该方法引出了随机化技术,可以证明减少了探索偏差同时保留了数据分析效用,从而帮助解决科学中的可重复性危机。