从含有噪声的正样本和未标记的数据中估计类别先验和后验

MMJun, 2016

从含有噪声的正样本和未标记的数据中估计类别先验和后验

Estimating the class prior and posterior from noisy positives and unlabeled data

Shantanu Jain, Martha White, Predrag Radivojac

TL;DR发展一种分类算法，可从正未标记数据中估计后验分布，对正标记上的噪声具有鲁棒性，对高维数据有效。

Abstract

We develop a classification algorithm for estimating posterior distributions from positive-unlabeled data, that is robust to noise in the

positive-unlabeled data classification algorithm high-dimensional data noise univariate transforms

发现论文，激发创造

正类和无标注数据学习的先验分类估计

利用惩罚性差异度度量方法，仅通过来自正类的额外样本，可以正确地估计未标记数据集的类先验。

Nov, 2016

从正样本和未标记数据中交替估算分类器和类先验

本文提出了一种新的 PU 学习方法，可同时估计类先验和训练分类器，简单易行且计算效率高，并通过实验验证了该方法的实用性。

Sep, 2018

非参数半监督学习的类别比例

该研究提出了解决从正类和未标记数据中开发二元分类器的问题的方法，其中主要集中在如何准确估计正类和负类先验概率的问题。通过研究非参数类先验估计和使用混合模型估计混合比例，该研究提供了一个新的算法以解决问题，通过实际转换为低维空间来解决高维密度估计等问题。

Jan, 2016

学习正样本和未标注数据的变分方法探索

该论文介绍了一种用于正负标记样本不明确的情景下，从正样本和无标记样本中学习出二分类器的新方法 —— 使用变分原理的方法，可以直接从给定的数据中定量评估贝叶斯分类器的建模误差，并进一步提高该方法的鉴别性能和数值稳定性，还可以通过引入最大化分类间隔的损失函数来使方法更加有效。

Jun, 2019

正例偏移情况下的正类和无标注数据学习

本文介绍了使用正样本和未标注样本进行 PU 学习的方法，即使正样本在数据分布中不具有代表性，也可以通过只固定负类分布来解决正偏差问题。通过将负 - 未标注学习与未标注 - 未标注学习相结合或利用递归风险估计方法，可以解决正偏差问题。然后，作者提出一种通用的方法来解决 PU 风险评估的过度配合问题。实验结果表明，无论数据集如何，这两种方法都是有效的。

Feb, 2020

基于正类和未标记数据分类的半监督分类

本文提出一种新的半监督分类方法，通过将无标签数据引入到分类模型中，使模型的下降边界可以与无标签数据的数量成比例而不需要假设簇的条件。经过实验证明这种方法的有效性。

May, 2016

基于局部标签的噪声标签学习中的噪声类后验估计

在嘈杂标签学习中，为了开发一致的分类器，估计嘈杂的类别后验概率起着基础性的作用，因为它是估计干净的类别后验概率和过渡矩阵的基础。本文提出了一种增强监督信息与部分级标签相结合的方法，鼓励模型关注和整合来自各个部分的丰富信息以更精确地学习嘈杂的类别后验概率，最终改善分类性能。

May, 2024

带有噪声标签的高维度学习

该研究论文探讨了高维二分类在具有条件性噪声标签的情况下的理论视角。通过研究具有标签噪声感知损失函数的线性分类器在维度 p 和样本数 n 都很大且可比时的行为，利用随机矩阵理论和高斯混合数据模型，证明了当 p 和 n 趋近于无穷时，线性分类器的性能收敛至涉及数据的标量统计量的一个界限。重要的是，我们的发现表明低维处理标签噪声的直觉在高维中不成立，即低维中的最优分类器在高维中出现显著失败。基于我们的推导，我们设计了一种优化方法，经证明在处理高维噪声标签方面更加高效。我们的理论结论在真实数据集上的实验证实了我们的优化方法优于考虑的基准方法。

May, 2024

基于贝叶斯最优标记的实例相关 PU 学习

本文提出了一种基于概率差距的 PU 学习算法，该算法通过利用条件概率 P (Y=1|X) 对正样例进行有偏重采样，并将未标记数据视为噪声负样例，从而自动标记一组正负样例，这些样例的标签与贝叶斯最优分类器分配的标签相同。通过核均值匹配技术纠正其偏差。实验结果表明，该方法在生成的和现实世界的数据集上均表现良好。

Aug, 2018

噪声标签的误差有界修正

本文介绍了针对大规模标注数据不可避免存在 label noise 问题时，通过使用 noisy classifiers 算法来提高模型鲁棒性，进而讲解了该算法的理论解释，并提出了一种基于该算法的标签校正方法，结合深度神经网络，成功提升了测试性能。

Nov, 2020