剪枝无标签数据以提升半监督学习
通过实现多种常用的 SSL 技术并在一系列实验中进行测试,研究发现简单基线方法的表现通常被低估,而 SSL 方法对标记和未标记数据的敏感性不同,当未标记数据集包含类外示例时性能可能会显著下降,因此我们提供了一个公共代码重现平台以帮助实现 SSL 技术在实际应用中的可行性。
Apr, 2018
本文介绍了Split Batch Normalization技术用于提高半监督学习的效果,并在CIFAR-10和ImageNet数据集上进行实证分析,发现当训练数据包含来自不同分布的未标注数据时,使用该技术可以改善模型的表现。同时,还分析了域漂移对SSL训练过程的影响。
Apr, 2019
本文提出一种新的SSL算法,通过引入转移学习和自主监督来初始化数据的表示,再利用新算法,交替拟合有标签和无标签点以降低过拟合和避免标签和无标签损失平衡的问题。实验证明,该方法在标准基准测试中表现优异,特别是在从其他任务或数据集中细化时,效果更佳。
May, 2019
本文提出了一种新的半监督学习方法DP-SSL,采用创新的数据编程(DP)方案为无标签数据生成概率标签,通过自动生成标签函数并解决不同标签之间的冲突,成功缓解了有限标签数据的问题,实验证明DP-SSL可以为无标签数据提供可靠标签和更好的分类性能。
Oct, 2021
本篇文章研究了半监督深度学习的最新方法,重点是针对标记和未标记数据集之间分布差异的情况设计的半监督深度学习模型,致力于解决传统深度学习流水线在实际使用环境下对数据的高需求,并希望鼓励社区应对该方面的挑战。
Mar, 2022
提出一种去偏移的方法,适用于多数深度半监督学习方法,并提供了简单的理论保证和推广误差界限,以在各种情境中提供更好的模型校准,同时说明了流行的SSL方法的直觉解释。
Mar, 2022
本研究提出了一种叫做AuxMix的算法,该算法利用自监督学习任务来学习通用特征,以掩盖那些不同于标记集的语义上不相似的辅助数据,并正则化学习通过预测熵最大化来处理不同数据的不确定性,结果显示该算法相比现有的基线在ResNet-50模型上训练CIFAR10数据集时提高了5%。
Jun, 2022
本文提出一种基于伪标签的半监督学习方法,能够处理open-world SSL问题,并通过样本不确定性和类别分布先验知识等手段,为已知和未知类别的未标记数据生成可靠的类别分布感知型伪标签。该方法在多种常用数据集上表现良好,特别是在CIFAR-100,ImageNet-100和Tiny ImageNet数据集上的表现显著优于现有的最先进技术。
Jul, 2022
本文介绍了基于样本加权统一公式的伪标签方法及其 inherent quantity-quality trade-off 问题, 并提出了利用截断高斯函数对置信度加权以实现软的置信度阈值。加强了弱学习类别的利用, 在图像分类、文本分类和非平衡分类等多种基准测试中都取得了显著的改进。
Jan, 2023
本研究解决了半监督学习在高维稀疏高斯分类中的理论不足。通过信息论下界和计算下界的分析,我们识别了特定参数区间,在该区间内,结合标记和未标记数据可以有效构建准确的分类器,显示出半监督学习在特征选择中的显著优势。
Sep, 2024