在高斯混合模型上考虑半监督分类设置,其中数据并不像通常那样严格标记,而是具有不确定的标签。我们的主要目标是计算该模型的贝叶斯风险,并对该模型的贝叶斯风险和已知的最佳算法进行比较。这种比较最终提供了对算法的新见解。
Mar, 2024
半监督学习算法可以利用未标记数据,改善有监督学习算法的样本复杂性。然而,现有的理论分析主要关注无监督学习能够使用足够的未标记数据来学习良好的决策边界的情况。我们通过对二元高斯混合模型的严格下界进行推导,在分布的标记和未标记数据集大小以及混合分布的信噪比上明确地依赖。令人惊讶的是,我们的结果表明,对于这些分布,没有任何半监督学习算法可以改进标记的最小最优统计误差率或无监督学习算法的性能。然而,我们在真实世界的数据上通过实验证明了半监督学习算法仍然可以优于无监督学习和有监督学习方法。因此,我们的工作表明,虽然证明半监督学习算法性能的提升是可能的,但需要仔细追踪常数。
Nov, 2023
本研究提出了一种叫做 AuxMix 的算法,该算法利用自监督学习任务来学习通用特征,以掩盖那些不同于标记集的语义上不相似的辅助数据,并正则化学习通过预测熵最大化来处理不同数据的不确定性,结果显示该算法相比现有的基线在 ResNet-50 模型上训练 CIFAR10 数据集时提高了 5%。
Jun, 2022
本文提出了一种基于不确定性感知的新型无监督目标函数,结合最近 SSL 技术,在保证计算效率的同时,在基准数据集中表现优于或与现有最先进技术水平相当,尤其在复杂数据集如 CIFAR-100 和 Mini-ImageNet 上表现最好。
Jul, 2022
我们通过引入额外的熵损失构建了一个分类器,用于对来自已知和未知类别的数据进行分类,从而改进了现有的半监督学习方法在已知和未知类别的分类中的表现。通过在 CIFAR-100 和 STL-10 两个基准图像分类数据集上的实验证明,我们相对于现有的 SSL、开放集合 SSL 和开放世界 SSL 方法取得了巨大的改进。当标记数据非常有限(每个类别 1-25 个标记示例)时,进步最为显著。
Aug, 2023
通过实现多种常用的 SSL 技术并在一系列实验中进行测试,研究发现简单基线方法的表现通常被低估,而 SSL 方法对标记和未标记数据的敏感性不同,当未标记数据集包含类外示例时性能可能会显著下降,因此我们提供了一个公共代码重现平台以帮助实现 SSL 技术在实际应用中的可行性。
Apr, 2018
本文介绍了一种半监督学习的方法, 采用生成模型与监督学习算法,放松了对未标记特征的约束,可提高分类器的可靠性,从而准确量化标签不确定度。
Nov, 2018
RealMix 是一个半监督学习算法,可解决传统算法在标记数据和非标记数据分布不一致时表现不佳的问题,并在有限的数据和计算资源下取得了优异的结果。
Dec, 2019
探讨当部分数据无标签时的半监督分类问题,提出基于密度水平集估计的方法,利用聚类假设和与边际分布有关的回归函数的行为,实现在未标注和已标注示例数量上的收敛速率快。
Apr, 2006
提出一种去偏移的方法,适用于多数深度半监督学习方法,并提供了简单的理论保证和推广误差界限,以在各种情境中提供更好的模型校准,同时说明了流行的 SSL 方法的直觉解释。
Mar, 2022