无标签领域外数据提高泛化能力
本文研究了在对抗性扰动的假设下,无标记数据在推断问题中的作用,并将两种主要的学习框架——半监督学习(SSL)和分布式鲁棒学习(DRL)统一起来,并在新的复杂性度量基础上进行了一般化理论的构建。
May, 2019
通过理论和实验,我们证明了半监督学习可以显著提高对抗性鲁棒性,实验结果表明在 CIFAR-10 上使用 500k 未标记图像,使用自我训练方法可以超过最先进的对抗性鲁棒的准确度。在 SVHN 上,使用模型自身的额外的训练集可以提高 4 至 10 个百分点,与使用额外标签的提高量相差不大。
May, 2019
本文研究了神经网络对抗性鲁棒性问题,通过理论和实验结果表明,增加未标记数据的使用,可以提高抗干扰泛化性能,并提出一种算法在MNIST和Cifar-10上的对抗训练方法。
Jun, 2019
本文提出了一种称为DGSML的方法,它结合了元学习的情节训练和半监督学习,利用基于熵的伪标签方法为无标签样本分配标签,并利用新的差异性损失和对齐损失实现域不变表示的学习,进而提高领域泛化能力。实验结果表明,DGSML优于现有领域泛化和半监督方法。
Sep, 2020
提出了一种名为UnMixMatch的半监督学习框架,该框架可以从无约束的未标记数据中学习有效表示,以提高性能。它由三个组件组成:具有硬增强的监督学习器提供强大的正则化,对照一致性正则化器从未标记数据中学习底层表示以及自监督损失用于增强从未标记数据中学习的表示。在4个常用数据集上进行了实验,在现有的半监督方法上表现出卓越的性能提高4.79%。广泛的消融和敏感性研究表明了我们方法的每个提出组件的有效性和影响。
Jun, 2023
半监督学习算法可以利用未标记数据,改善有监督学习算法的样本复杂性。然而,现有的理论分析主要关注无监督学习能够使用足够的未标记数据来学习良好的决策边界的情况。我们通过对二元高斯混合模型的严格下界进行推导,在分布的标记和未标记数据集大小以及混合分布的信噪比上明确地依赖。令人惊讶的是,我们的结果表明,对于这些分布,没有任何半监督学习算法可以改进标记的最小最优统计误差率或无监督学习算法的性能。然而,我们在真实世界的数据上通过实验证明了半监督学习算法仍然可以优于无监督学习和有监督学习方法。因此,我们的工作表明,虽然证明半监督学习算法性能的提升是可能的,但需要仔细追踪常数。
Nov, 2023
机器学习算法中的领域泛化与经验风险最小化的效果在标准基准测试中没有明确的经验证据,但是通过标签噪声的研究可知,领域泛化算法在有限样本训练中具有隐含的标签噪声鲁棒性,在合成实验中可以缓解虚假相关性并提高泛化性能,但在真实世界的基准数据集上的综合实验表明,标签噪声鲁棒性并不能比经验风险最小化算法取得更好的性能。我们推测,由虚假相关性引起的经验风险最小化的失败模式在实践中可能不明显。
Jan, 2024
本文介绍了一种名为ProUD的新算法,通过领域感知原型以及标记和未标记领域的不确定性自适应混合,有效地学习领域不变特征,解决了领域之间数据不平等的问题,并在三个不同的基准数据集上进行的实验证明了ProUD的有效性,胜过所有基线模型,包括单领域泛化和半监督学习。
Mar, 2024
本研究解决了半监督学习在高维稀疏高斯分类中的理论不足。通过信息论下界和计算下界的分析,我们识别了特定参数区间,在该区间内,结合标记和未标记数据可以有效构建准确的分类器,显示出半监督学习在特征选择中的显著优势。
Sep, 2024