半监督高斯混合模型的渐近贝叶斯风险
本文对多种半监督学习技术在不同数据集上进行实证研究,探讨标记数据和未标记数据的独立性、相关性、数量和噪声对学习效果的影响,同时针对样本选择偏差实现双变量Probit技术进行校正。
Sep, 2011
该研究针对训练样本标签随机出错的分类问题,提出一种新的判别方法:通过对杂质标签的最大去噪实现真实类别条件分布的识别,其基础概念是相互不可约的真实类别条件分布,另外,相关实验表明,该方法在标杆数据和核粒子分类问题上具有有效性。
Mar, 2013
本文提出一种新的半监督分类方法,通过将无标签数据引入到分类模型中,使模型的下降边界可以与无标签数据的数量成比例而不需要假设簇的条件。经过实验证明这种方法的有效性。
May, 2016
本文提出了一种基于不确定性感知的新型无监督目标函数,结合最近 SSL 技术,在保证计算效率的同时,在基准数据集中表现优于或与现有最先进技术水平相当,尤其在复杂数据集如 CIFAR-100 和 Mini-ImageNet 上表现最好。
Jul, 2022
本文提出一种基于半监督学习的师生模型的贝叶斯优化方法,利用未标记数据和黑盒函数,在学习到的潜在空间中降低维度,使其可应用于高维问题,优化 unlabeled data 的采样和选择,采用黑盒参数化采样分布和经过动态拟合的极值分布,该方法在多项真实世界和合成训练中优于其他已有BO方法。
May, 2023
将未标记的数据合并到半监督分类问题的一个新框架中,借助分布鲁棒优化 (Distributionally Robust Optimization) 和自我监督训练的组合,提供了新的错误界限以及将离域样本用于缩小泛化差距的方法。
Sep, 2023
半监督学习算法可以利用未标记数据,改善有监督学习算法的样本复杂性。然而,现有的理论分析主要关注无监督学习能够使用足够的未标记数据来学习良好的决策边界的情况。我们通过对二元高斯混合模型的严格下界进行推导,在分布的标记和未标记数据集大小以及混合分布的信噪比上明确地依赖。令人惊讶的是,我们的结果表明,对于这些分布,没有任何半监督学习算法可以改进标记的最小最优统计误差率或无监督学习算法的性能。然而,我们在真实世界的数据上通过实验证明了半监督学习算法仍然可以优于无监督学习和有监督学习方法。因此,我们的工作表明,虽然证明半监督学习算法性能的提升是可能的,但需要仔细追踪常数。
Nov, 2023
在高斯混合模型上考虑半监督分类设置,其中数据并不像通常那样严格标记,而是具有不确定的标签。我们的主要目标是计算该模型的贝叶斯风险,并对该模型的贝叶斯风险和已知的最佳算法进行比较。这种比较最终提供了对算法的新见解。
Mar, 2024
本研究解决了半监督学习在高维稀疏高斯分类中的理论不足。通过信息论下界和计算下界的分析,我们识别了特定参数区间,在该区间内,结合标记和未标记数据可以有效构建准确的分类器,显示出半监督学习在特征选择中的显著优势。
Sep, 2024