Oct, 2018

正样本、无标记样本和有偏负样本数据分类

TL;DR本文提出一种新的分类框架来解决二元分类中负数据种类过于多无法完全标注的情况,并引入一种基于实验风险最小化的方法来解决这个问题,方法中使用的每个示例的权重是通过受到正例样本-未标记负例样本学习的启发式预处理步骤计算的,并针对所提出的方法导出了估计误差边界。实验结果表明,该算法不仅在正-未标记负学习场景中,也在几个基准数据集上的普通正-未标记负学习场景中均具有有效性。