半监督高斯混合模型的渐近贝叶斯风险

Jul, 2019

半监督高斯混合模型的渐近贝叶斯风险

Asymptotic Bayes risk for Gaussian mixture in a semi-supervised setting

Marc Lelarge, Leo Miolane

TL;DR本文在贝叶斯框架下研究高维高斯混合模型的半监督学习，通过分析使用标记与未标记数据的最佳半监督方法和只使用标记数据的最佳全监督方法的差距，量化了未标记数据信息对性能的最佳提升。

Abstract

semi-supervised learning (SSL) uses unlabeled data for training and has been shown to greatly improve performances when compared to a supervised approach on the labeled data available. This claim depends both on

发现论文，激发创造

高斯混合多项式可学习性的解决

该论文提出了一种基于高斯混合模型的数据学习算法，可用于密度估计、数据聚类、高斯混合参数估计等问题，同时考虑了高维情况下的实际问题。

Apr, 2010

利用已标记和未标记数据进行学习：技术和领域的实证研究

本文对多种半监督学习技术在不同数据集上进行实证研究，探讨标记数据和未标记数据的独立性、相关性、数量和噪声对学习效果的影响，同时针对样本选择偏差实现双变量Probit技术进行校正。

Sep, 2011

非对称标签噪声下的分类：一致性和最大降噪

该研究针对训练样本标签随机出错的分类问题，提出一种新的判别方法：通过对杂质标签的最大去噪实现真实类别条件分布的识别，其基础概念是相互不可约的真实类别条件分布，另外，相关实验表明，该方法在标杆数据和核粒子分类问题上具有有效性。

Mar, 2013

基于正类和未标记数据分类的半监督分类

本文提出一种新的半监督分类方法，通过将无标签数据引入到分类模型中，使模型的下降边界可以与无标签数据的数量成比例而不需要假设簇的条件。经过实验证明这种方法的有效性。

May, 2016

通过不确定性量化来辅助半监督学习

本文提出了一种基于不确定性感知的新型无监督目标函数，结合最近 SSL 技术，在保证计算效率的同时，在基准数据集中表现优于或与现有最先进技术水平相当，尤其在复杂数据集如 CIFAR-100 和 Mini-ImageNet 上表现最好。

Jul, 2022

基于半监督学习和优化无标签数据采样的高维贝叶斯优化

本文提出一种基于半监督学习的师生模型的贝叶斯优化方法，利用未标记数据和黑盒函数，在学习到的潜在空间中降低维度，使其可应用于高维问题，优化 unlabeled data 的采样和选择，采用黑盒参数化采样分布和经过动态拟合的极值分布，该方法在多项真实世界和合成训练中优于其他已有BO方法。

May, 2023

无标签领域外数据提高泛化能力

将未标记的数据合并到半监督分类问题的一个新框架中，借助分布鲁棒优化 (Distributionally Robust Optimization) 和自我监督训练的组合，提供了新的错误界限以及将离域样本用于缩小泛化差距的方法。

Sep, 2023

半监督学习能否有效利用全部数据？从下界的角度看

半监督学习算法可以利用未标记数据，改善有监督学习算法的样本复杂性。然而，现有的理论分析主要关注无监督学习能够使用足够的未标记数据来学习良好的决策边界的情况。我们通过对二元高斯混合模型的严格下界进行推导，在分布的标记和未标记数据集大小以及混合分布的信噪比上明确地依赖。令人惊讶的是，我们的结果表明，对于这些分布，没有任何半监督学习算法可以改进标记的最小最优统计误差率或无监督学习算法的性能。然而，我们在真实世界的数据上通过实验证明了半监督学习算法仍然可以优于无监督学习和有监督学习方法。因此，我们的工作表明，虽然证明半监督学习算法性能的提升是可能的，但需要仔细追踪常数。

Nov, 2023

半监督学习在不确定标签情况下的渐近贝叶斯风险

在高斯混合模型上考虑半监督分类设置，其中数据并不像通常那样严格标记，而是具有不确定的标签。我们的主要目标是计算该模型的贝叶斯风险，并对该模型的贝叶斯风险和已知的最佳算法进行比较。这种比较最终提供了对算法的新见解。

Mar, 2024

半监督稀疏高斯分类：未标记数据的可证明优势

本研究解决了半监督学习在高维稀疏高斯分类中的理论不足。通过信息论下界和计算下界的分析，我们识别了特定参数区间，在该区间内，结合标记和未标记数据可以有效构建准确的分类器，显示出半监督学习在特征选择中的显著优势。

Sep, 2024