非参数半监督学习的类别比例
该研究针对训练样本标签随机出错的分类问题,提出一种新的判别方法:通过对杂质标签的最大去噪实现真实类别条件分布的识别,其基础概念是相互不可约的真实类别条件分布,另外,相关实验表明,该方法在标杆数据和核粒子分类问题上具有有效性。
Mar, 2013
本文介绍了使用正样本和未标注样本进行PU学习的方法,即使正样本在数据分布中不具有代表性,也可以通过只固定负类分布来解决正偏差问题。通过将负-未标注学习与未标注-未标注学习相结合或利用递归风险估计方法,可以解决正偏差问题。然后,作者提出一种通用的方法来解决PU风险评估的过度配合问题。实验结果表明,无论数据集如何,这两种方法都是有效的。
Feb, 2020
本文提出了Best Bin Estimation(MPE)和Conditional Value Ignoring Risk(PU-learning)两种简单技术解决无标注数据中的分类问题,并表明这两种方法在实证研究中优于以往的方法。
Nov, 2021
通过引入一种名为TCBC的新方法,我们解决了传统半监督学习中的两个挑战:训练样本的不平衡分布导致模型偏向某些类别,以及未标记样本的分布未知且可能与已标记样本不同,在训练过程中进一步导致偏向类别的伪标签。我们通过利用参与训练样本的类别分布估计来纠正模型,使其学习在类别平衡先验下的样本后验概率,从而减轻模型固有的类别偏差。在此基础上,我们还估计了训练过程中当前模型参数的类别偏差,对未标记样本的伪标签进行二次修正,以尽量使不同类别的未标记样本的伪标签分配公平。通过对CIFAR10/100-LT、STL10-LT和大规模长尾数据集SUN397的大量实验,我们提供确凿证据,证明我们提出的TCBC方法可靠地提升了类别不平衡的半监督学习性能。
Dec, 2023
现代分类问题存在类内异质性:每个类别可能具有唯一的属性,如样本大小、标签质量或可预测性(易 vs 难),以及测试时的变量重要性。我们提出了CAP方法,该方法根据类别属性生成特定于类别的学习策略(例如超参数),优化过程更好地适应这些异质性。CAP在损失函数设计和事后logit调整方面具有竞争力,并在公平目标超过平衡准确性时展现明显优势。最后,我们评估了CAP方法在存在标签噪声和加权测试目标的问题上,展示了CAP方法如何同时适应不同的异质性。
Jan, 2024
我们研究了不同类别之间的性能差异问题,并引入了光谱不平衡的概念来研究特征之间的类别偏差,通过构建一个理论框架,并在11个先进的预训练编码器上进行验证,我们展示了如何利用光谱不平衡来比较编码器的质量,评估和结合数据增强策略以缓解这个问题。
Feb, 2024
在这项研究中,我们提出了一个新颖的、高度适应的框架SimPro,它不依赖于对未标记数据分布的任何预定义假设。基于一种概率模型,我们创新地改进了期望最大化(EM)算法,通过明确分离条件和边际类别分布的建模来实现。这种分离在最大化阶段为类别分布估计提供了一个闭合形式的解,从而推导出贝叶斯分类器。而贝叶斯分类器则提高了期望阶段中伪标签的质量。值得注意的是,SimPro框架不仅具备理论保证,而且易于实现。我们还引入了两种新颖的类别分布,扩大了评估的范围。我们的方法在不同基准和数据分布场景下展示了一致的最先进性能。
Feb, 2024