KDDJul, 2016

有限标记资源下的分类器风险评估

TL;DR该研究提出了基于分层取样的策略来选取测试集的子集进行标注,以尽可能准确地估计分类器的性能,相对于简单随机取样,这些策略可以显著减少分类器精度估计中方差的误差,并且在有限标注资源下比随机取样需要更少的样本来估计分类器的准确性,有些情况下减少的样本数量高达 60%。