半监督学习中数据赋权:未标注数据的不同重要性
本文对多种半监督学习技术在不同数据集上进行实证研究,探讨标记数据和未标记数据的独立性、相关性、数量和噪声对学习效果的影响,同时针对样本选择偏差实现双变量Probit技术进行校正。
Sep, 2011
本文介绍了一种基于自监督正则化的半监督学习方法,其中利用了大量未标记数据来提高模型的性能,并且可以有效地应用于图像分类任务中,不需要任何补充的超参数进行调整。实验结果表明,该方法优于传统的监督和半监督学习方法。
Jun, 2019
本文提出了一种基于元学习的半监督学习方法,将有标签和无标签数据的相似度转化为对应的语义相似度,并通过自监督学习的方法实现了对有标签数据的更新。实验证明该方法较之传统方法更为有效。
Aug, 2020
本文提出了基于Pair Loss和MixMatch技术的SimPLE算法,通过挖掘标记和未标记数据之间的关系,显著提升了 CIFAR-100 和 Mini-ImageNet 上的性能,并在 CIFAR-10 和 SVHN 上达到了最新方法的水平。此外,SimPLE算法还在迁移学习设置中优于预训练模型。
Mar, 2021
本文提出了SemCo方法,该方法结合标签语义和联合训练来解决半监督学习中伪标记质量差的问题,该方法在各种SSL任务中实现了最先进的性能,例如使用1000个标记的样本的Mini-ImageNet数据集上提高了5.6%的准确性。
Apr, 2021
本文介绍了一种基于聚类原型的无监督选择性标注方法,通过它来提高半监督学习的效率。该方法能够在没有标记数据的情况下,选择代表性和多样性数据作为标记数据,显著改进了现有的半监督学习方法的性能。
Oct, 2021
本文针对有限标注信息下的半监督学习进行研究,分析了当前应用最广的半监督学习方法FixMatch在这种情况下的表现和局限,提出了一种利用自监督学习方法提供训练信号以及优化伪标签筛选过程的方案,并在STL-10数据集上得到了显著提高。
Dec, 2021
本文介绍了基于样本加权统一公式的伪标签方法及其 inherent quantity-quality trade-off 问题, 并提出了利用截断高斯函数对置信度加权以实现软的置信度阈值。加强了弱学习类别的利用, 在图像分类、文本分类和非平衡分类等多种基准测试中都取得了显著的改进。
Jan, 2023
提出了一种名为UnMixMatch的半监督学习框架,该框架可以从无约束的未标记数据中学习有效表示,以提高性能。它由三个组件组成:具有硬增强的监督学习器提供强大的正则化,对照一致性正则化器从未标记数据中学习底层表示以及自监督损失用于增强从未标记数据中学习的表示。在4个常用数据集上进行了实验,在现有的半监督方法上表现出卓越的性能提高4.79%。广泛的消融和敏感性研究表明了我们方法的每个提出组件的有效性和影响。
Jun, 2023
半监督学习算法可以利用未标记数据,改善有监督学习算法的样本复杂性。然而,现有的理论分析主要关注无监督学习能够使用足够的未标记数据来学习良好的决策边界的情况。我们通过对二元高斯混合模型的严格下界进行推导,在分布的标记和未标记数据集大小以及混合分布的信噪比上明确地依赖。令人惊讶的是,我们的结果表明,对于这些分布,没有任何半监督学习算法可以改进标记的最小最优统计误差率或无监督学习算法的性能。然而,我们在真实世界的数据上通过实验证明了半监督学习算法仍然可以优于无监督学习和有监督学习方法。因此,我们的工作表明,虽然证明半监督学习算法性能的提升是可能的,但需要仔细追踪常数。
Nov, 2023