Nov, 2023
半监督学习能否有效利用全部数据?从下界的角度看
Can semi-supervised learning use all the data effectively? A lower bound
perspective
TL;DR半监督学习算法可以利用未标记数据,改善有监督学习算法的样本复杂性。然而,现有的理论分析主要关注无监督学习能够使用足够的未标记数据来学习良好的决策边界的情况。我们通过对二元高斯混合模型的严格下界进行推导,在分布的标记和未标记数据集大小以及混合分布的信噪比上明确地依赖。令人惊讶的是,我们的结果表明,对于这些分布,没有任何半监督学习算法可以改进标记的最小最优统计误差率或无监督学习算法的性能。然而,我们在真实世界的数据上通过实验证明了半监督学习算法仍然可以优于无监督学习和有监督学习方法。因此,我们的工作表明,虽然证明半监督学习算法性能的提升是可能的,但需要仔细追踪常数。