基于正类和未标记数据分类的半监督分类
本文对多种半监督学习技术在不同数据集上进行实证研究,探讨标记数据和未标记数据的独立性、相关性、数量和噪声对学习效果的影响,同时针对样本选择偏差实现双变量Probit技术进行校正。
Sep, 2011
提出了一种新的弱监督学习设置,称为SU分类,只需要相似数据对和未标记数据点,可以从SU数据中获得分类风险的无偏估计量,并证明其经验风险最小化器的估计误差达到最优参数收敛速率。通过实验证明了该方法的有效性。
Feb, 2018
该论文提出了一种利用成对数据信息进行分类的方法,其中使用了经验风险最小化方法来评估分类风险,可以从成对相似性和未标记数据计算出分类风险的无偏估计器。这种方法不仅可以处理相似性,而且还可以处理不相似性,并且可以估计误差范围。
Apr, 2019
本文在贝叶斯框架下研究高维高斯混合模型的半监督学习,通过分析使用标记与未标记数据的最佳半监督方法和只使用标记数据的最佳全监督方法的差距,量化了未标记数据信息对性能的最佳提升。
Jul, 2019
本文研究如何通过基于影响函数的算法来为不同的未标记样本赋予不同的权重,提出一种快速有效的影响函数逼近技术,该技术在半监督图像和语言分类任务上表现优于最先进的方法。
Jul, 2020
本文针对有限标注信息下的半监督学习进行研究,分析了当前应用最广的半监督学习方法FixMatch在这种情况下的表现和局限,提出了一种利用自监督学习方法提供训练信号以及优化伪标签筛选过程的方案,并在STL-10数据集上得到了显著提高。
Dec, 2021
将未标记的数据合并到半监督分类问题的一个新框架中,借助分布鲁棒优化 (Distributionally Robust Optimization) 和自我监督训练的组合,提供了新的错误界限以及将离域样本用于缩小泛化差距的方法。
Sep, 2023
我们提出了一个理论框架,用于分析高维情况下基于低密度分离假设的半监督分类。我们介绍了QLDS,一个线性分类模型,其中低密度分离假设通过二次边界最大化来实现。该算法具有显式解和丰富的理论性质,我们证明了我们算法的特殊情况是有监督情况下的最小二乘支持向量机,完全非监督情况下的谱聚类以及一类半监督图方法。因此,QLDS在这些有监督和无监督学习方法之间建立了一个平滑的桥梁。利用随机矩阵理论的最新进展,我们正式推导了在渐近情况下的分类误差的理论评估。作为应用,我们得出一个超参数选择策略,找到在我们学习准则的有监督项和无监督项之间的最佳平衡。最后,我们提供了我们框架的广泛示例,以及在几个基准测试上的实验研究,证明了QLDS在计算效率更高的同时,在超参数选择上优于交叉验证,表明随机矩阵理论在半监督模型选择中具有很大的潜力。
Oct, 2023
研究表明,自监督学习和数据增强在从无标签数据中学习数据表示方面具有高效性,通过在这些增强表示之上训练线性模型可以得到熟练的分类器。本文探究了数据增强如何在多流形模型中实现线性分离,发现数据增强提供了超越观察数据的额外信息,可以改善线性分离能力。自监督学习可以通过更小的距离线性分离流形,并强调数据增强的附加好处。理论分析进一步证明下游线性分类器的性能主要取决于数据表示的线性可分性,而不仅仅是标记数据集的大小,验证了在广阔的无标签数据集中利用有限标记数据构建高效分类器的可行性。
Oct, 2023
半监督学习算法可以利用未标记数据,改善有监督学习算法的样本复杂性。然而,现有的理论分析主要关注无监督学习能够使用足够的未标记数据来学习良好的决策边界的情况。我们通过对二元高斯混合模型的严格下界进行推导,在分布的标记和未标记数据集大小以及混合分布的信噪比上明确地依赖。令人惊讶的是,我们的结果表明,对于这些分布,没有任何半监督学习算法可以改进标记的最小最优统计误差率或无监督学习算法的性能。然而,我们在真实世界的数据上通过实验证明了半监督学习算法仍然可以优于无监督学习和有监督学习方法。因此,我们的工作表明,虽然证明半监督学习算法性能的提升是可能的,但需要仔细追踪常数。
Nov, 2023