如何通过主动学习在半监督图像分类中克服确认偏倚
本文对多种半监督学习技术在不同数据集上进行实证研究,探讨标记数据和未标记数据的独立性、相关性、数量和噪声对学习效果的影响,同时针对样本选择偏差实现双变量Probit技术进行校正。
Sep, 2011
使用基于主动学习技术的方法改进了半监督学习 MixMatch 算法,并在 CIFAR-10、CIFAR-100 和 SVHN 数据集上进行了全面的实证评估,得到了显著的性能提升。此外,还对标记和非标记数据成本之间的权衡进行了实证分析,发现虽然有标记数据的增量效益可以高达非标记数据的 20 倍,但一旦观察到超过 2000 个标记示例,其效益就会迅速减弱到不到 3 倍。
Dec, 2019
本研究提供了一个将自我监督预训练、主动学习和一致性正则化自我训练整合的新算法框架,并在CIFAR10和CIFAR100数据集上进行了实验,揭示了自我监督预训练在半监督学习中的重要性,被S4L技术所替代的主动学习的价值。
Nov, 2020
本文探讨了主动学习中样本标注代价昂贵导致的偏差问题并提出了一种新的校正方法,解释了为何忽略这种偏差也能带来一些经验上的成功,尤其对参数众多的神经网络等少量数据训练情境下,这种偏差反而有益。
Jan, 2021
本篇研究评估了半监督学习在存在严重类别不平衡和含有新类别图像的真实数据集上的有效性。研究结果表明最近提出的半监督学习方法可以利用不同类别的数据提高性能,但相较于迁移学习仍然表现不足。此外,本文证明在迁移学习中,现有的半监督学习方法在存在不同类别数据时往往是有害的。因此,标准的微调加蒸馏自训练是最健壮的方法。这些研究结论说明,对真实数据集的半监督学习可能需要不同于文献中普遍使用的方法。
Apr, 2021
该研究通过将主动学习与自监督预训练相结合,并使用称为Balanced Selection(BASE)的算法来解决类不平衡问题,提高图像分类性能,特别适用于工业级大规模数据标记和训练中。
Nov, 2021
本文针对有限标注信息下的半监督学习进行研究,分析了当前应用最广的半监督学习方法FixMatch在这种情况下的表现和局限,提出了一种利用自监督学习方法提供训练信号以及优化伪标签筛选过程的方案,并在STL-10数据集上得到了显著提高。
Dec, 2021
全监督模型在贝叶斯主动学习中占主导地位,我们认为它们对未标记数据中的信息的忽视不仅损害了预测性能,也影响了关于获取哪些数据的决策。我们提出了一个简单的半监督贝叶斯主动学习框架,发现它比传统的贝叶斯主动学习或随机获取数据的半监督学习能够生成更好的模型。该框架也更易于扩展。除了支持向半监督模型的转变外,我们的发现还强调了研究模型和获取方法的重要性。
Apr, 2024
本研究针对半监督学习(SSL)中样本选择不足的问题,通过提出代表性和多样化样本选择方法(RDSS)填补这一空白。该方法采用改进的Frank-Wolfe算法,最小化新的标准$\alpha$-最大均值差异($\alpha$-MMD),显著提升了低预算学习的泛化能力。实验结果表明,RDSS有效提高了多种流行SSL框架的性能,并在有限标注预算下优于现有的样本选择方法。
Sep, 2024
本研究解决了半监督学习中确认偏差问题,模型倾向于过度偏向某些类别,导致伪标签预测错误。提出了TaMatch框架,通过在训练中动态调整参数更新的权重来有效利用去偏的伪标签,从而确保训练的公平性,减少类别偏差。实验证明,TaMatch在多种图像分类任务中显著优于现有方法,展示了去偏伪标签生成和利用的重要性。
Sep, 2024