RealMix: 实现逼真的半监督深度学习算法
通过实现多种常用的 SSL 技术并在一系列实验中进行测试,研究发现简单基线方法的表现通常被低估,而 SSL 方法对标记和未标记数据的敏感性不同,当未标记数据集包含类外示例时性能可能会显著下降,因此我们提供了一个公共代码重现平台以帮助实现 SSL 技术在实际应用中的可行性。
Apr, 2018
本文提出一种基于伪标签的半监督学习方法,能够处理 open-world SSL 问题,并通过样本不确定性和类别分布先验知识等手段,为已知和未知类别的未标记数据生成可靠的类别分布感知型伪标签。该方法在多种常用数据集上表现良好,特别是在 CIFAR-100,ImageNet-100 和 Tiny ImageNet 数据集上的表现显著优于现有的最先进技术。
Jul, 2022
本研究提出了一种叫做 AuxMix 的算法,该算法利用自监督学习任务来学习通用特征,以掩盖那些不同于标记集的语义上不相似的辅助数据,并正则化学习通过预测熵最大化来处理不同数据的不确定性,结果显示该算法相比现有的基线在 ResNet-50 模型上训练 CIFAR10 数据集时提高了 5%。
Jun, 2022
本文提出了一个 semi-supervised learning (SSl) 的新方法:Mixture of Expert/Imitator Networks,该模型通过利用大量未标记数据来训练 imitator 网络模拟 expert 网络的标签分布,从而提高 text classification 任务的性能,实验结果表明该方法可适用于多种深度神经网络模型,并且性能随未标记数据的增加而提高。
Oct, 2018
我们通过引入额外的熵损失构建了一个分类器,用于对来自已知和未知类别的数据进行分类,从而改进了现有的半监督学习方法在已知和未知类别的分类中的表现。通过在 CIFAR-100 和 STL-10 两个基准图像分类数据集上的实验证明,我们相对于现有的 SSL、开放集合 SSL 和开放世界 SSL 方法取得了巨大的改进。当标记数据非常有限(每个类别 1-25 个标记示例)时,进步最为显著。
Aug, 2023
本文提出了一种新的半监督学习方法 DP-SSL,采用创新的数据编程(DP)方案为无标签数据生成概率标签,通过自动生成标签函数并解决不同标签之间的冲突,成功缓解了有限标签数据的问题,实验证明 DP-SSL 可以为无标签数据提供可靠标签和更好的分类性能。
Oct, 2021
通过分析合成图像的问题,本文提出了一种新的 SSL 方法 RSMatch 来解决混合真实和合成图像对 SSL 的影响问题,并通过实验证明 RSMatch 能够更好地利用未标记图像中的合成数据来提高 SSL 性能。
May, 2024
本篇研究评估了半监督学习在存在严重类别不平衡和含有新类别图像的真实数据集上的有效性。研究结果表明最近提出的半监督学习方法可以利用不同类别的数据提高性能,但相较于迁移学习仍然表现不足。此外,本文证明在迁移学习中,现有的半监督学习方法在存在不同类别数据时往往是有害的。因此,标准的微调加蒸馏自训练是最健壮的方法。这些研究结论说明,对真实数据集的半监督学习可能需要不同于文献中普遍使用的方法。
Apr, 2021
SimiS 是一种简单而有效的 SSL 算法,通过用伪标签补充数据以解决类别不平衡问题,在 CIFAR100-LT,FOOD101-LT 和 ImageNet127 数据集上分别相对现有方法提高了 12.8%,13.6%和 16.7%的表现。
Nov, 2022
我们提出了一种使用合成数据集来训练半监督学习模型的方法,该方法通过使用基于生成式基础模型训练的合成数据集来替代真实的未标记数据集,并证明了在极少标记数据集的情况下,合成样本比真实未标记数据更有效地提升性能。
Sep, 2023