从正样本和未标记数据中交替估算分类器和类先验

Sep, 2018

从正样本和未标记数据中交替估算分类器和类先验

Alternate Estimation of a Classifier and the Class-Prior from Positive and Unlabeled Data

Masahiro Kato, Liyuan Xu, Gang Niu, Masashi Sugiyama

TL;DR本文提出了一种新的 PU 学习方法，可同时估计类先验和训练分类器，简单易行且计算效率高，并通过实验验证了该方法的实用性。

Abstract

We consider a problem of learning a binary classifier only from positive data and unlabeled data (pu learning) and estimating the class-pr

pu learning binary classifier class-prior estimation unlabeled data estimation error

发现论文，激发创造

正类和无标注数据学习的先验分类估计

利用惩罚性差异度度量方法，仅通过来自正类的额外样本，可以正确地估计未标记数据集的类先验。

Nov, 2016

学习正样本和未标注数据的变分方法探索

该论文介绍了一种用于正负标记样本不明确的情景下，从正样本和无标记样本中学习出二分类器的新方法 —— 使用变分原理的方法，可以直接从给定的数据中定量评估贝叶斯分类器的建模误差，并进一步提高该方法的鉴别性能和数值稳定性，还可以通过引入最大化分类间隔的损失函数来使方法更加有效。

Jun, 2019

正例偏移情况下的正类和无标注数据学习

本文介绍了使用正样本和未标注样本进行 PU 学习的方法，即使正样本在数据分布中不具有代表性，也可以通过只固定负类分布来解决正偏差问题。通过将负 - 未标注学习与未标注 - 未标注学习相结合或利用递归风险估计方法，可以解决正偏差问题。然后，作者提出一种通用的方法来解决 PU 风险评估的过度配合问题。实验结果表明，无论数据集如何，这两种方法都是有效的。

Feb, 2020

对无先验正样本无监督学习的对比方法

我们提出了一种新的正未标化学习框架，通过预定义无关的表示学习来学习特征空间，然后采用伪标记技术将未标注样本进行分类，利用嵌入的集中性质。该方法在多个标准正未标化基准数据集上明显优于现有的方法，并且不需要先验知识或类先验的估计。值得注意的是，即使标注数据稀缺，我们的方法仍然有效，而大多数正未标化学习算法则表现不佳。我们还提供了简单的理论分析，解释了我们所提出算法的动机，并为我们的方法建立了泛化保证。

Feb, 2024

从含有噪声的正样本和未标记的数据中估计类别先验和后验

发展一种分类算法，可从正未标记数据中估计后验分布，对正标记上的噪声具有鲁棒性，对高维数据有效。

Jun, 2016

正标 - 未标分类的元学习

我们提出了一种元学习方法，用于正负样本未标记分类，从而提高仅使用 PU 数据获得的二元分类器在未知目标任务中的性能。该方法使用包含正向、负向和未标记数据的相关任务，在使用 PU 数据调整模型之后，最小化了测试分类风险。通过使用神经网络将每个实例嵌入到任务特定空间中，我们以密度比率估计 PU 密度的形式估计了贝叶斯最优分类器，其解可作为闭式解求得。经验证明，该方法在一个合成数据集和三个真实数据集上表现优于现有方法。

Jun, 2024

非参数半监督学习的类别比例

该研究提出了解决从正类和未标记数据中开发二元分类器的问题的方法，其中主要集中在如何准确估计正类和负类先验概率的问题。通过研究非参数类先验估计和使用混合模型估计混合比例，该研究提供了一个新的算法以解决问题，通过实际转换为低维空间来解决高维密度估计等问题。

Jan, 2016

基于正类和未标记数据分类的半监督分类

本文提出一种新的半监督分类方法，通过将无标签数据引入到分类模型中，使模型的下降边界可以与无标签数据的数量成比例而不需要假设簇的条件。经过实验证明这种方法的有效性。

May, 2016

正界未标示对比学习

这篇论文研究并扩展了自监督预训练在受限标注数据上的应用，提出了一种新颖的 PU 学习目标正无标噪声对比估计（puNCE）以通过有限监督获得表示，实验证明 puNCE 在受限监督下持续优于现有无监督和监督对比基线。

Jun, 2022

Dist-PU：基于标签分布视角的正 - 无标记学习

本文提出了一种用于 Positive-Unlabeled 学习的标签分布一致性方法，通过对齐无标签数据和基础事实标签分布的期望值，实现了一定程度的学习监督，并进一步采用信息熵最小化和 Mixup 正则化来避免无标签数据上标签分布相同的平凡解法和缓解经验确认偏差。

Dec, 2022