正例偏移情况下的正类和无标注数据学习

Feb, 2020

正例偏移情况下的正类和无标注数据学习

Learning from Positive and Unlabeled Data with Arbitrary Positive Shift

Zayd Hammoudeh, Daniel Lowd

TL;DR本文介绍了使用正样本和未标注样本进行 PU 学习的方法，即使正样本在数据分布中不具有代表性，也可以通过只固定负类分布来解决正偏差问题。通过将负 - 未标注学习与未标注 - 未标注学习相结合或利用递归风险估计方法，可以解决正偏差问题。然后，作者提出一种通用的方法来解决 PU 风险评估的过度配合问题。实验结果表明，无论数据集如何，这两种方法都是有效的。

Abstract

Positive-unlabeled (PU) learning trains a binary classifier using only positive and unlabeled data. A common simplifying assumption is that the positive data is representative of the target positive class. This assumption rarely holds in practice due to temporal drift, domain shift, and/or adversarial manipulation. This paper shows that PU learning is possib

positive-unlabeled learning non-representative positive data statistically consistent methods negative-unlabeled learning pu risk estimation

发现论文，激发创造

对无先验正样本无监督学习的对比方法

我们提出了一种新的正未标化学习框架，通过预定义无关的表示学习来学习特征空间，然后采用伪标记技术将未标注样本进行分类，利用嵌入的集中性质。该方法在多个标准正未标化基准数据集上明显优于现有的方法，并且不需要先验知识或类先验的估计。值得注意的是，即使标注数据稀缺，我们的方法仍然有效，而大多数正未标化学习算法则表现不佳。我们还提供了简单的理论分析，解释了我们所提出算法的动机，并为我们的方法建立了泛化保证。

Feb, 2024

学习正样本和未标注数据的变分方法探索

该论文介绍了一种用于正负标记样本不明确的情景下，从正样本和无标记样本中学习出二分类器的新方法 —— 使用变分原理的方法，可以直接从给定的数据中定量评估贝叶斯分类器的建模误差，并进一步提高该方法的鉴别性能和数值稳定性，还可以通过引入最大化分类间隔的损失函数来使方法更加有效。

Jun, 2019

正负样本学习综述

该论文综述了 “PU learning”（从正面和未标记数据中学习）的现状，并提出了七个关键的研究问题，旨在探讨如何应对医学诊断和知识库完成等应用中自然产生的这种数据类型。

Nov, 2018

Dist-PU：基于标签分布视角的正 - 无标记学习

本文提出了一种用于 Positive-Unlabeled 学习的标签分布一致性方法，通过对齐无标签数据和基础事实标签分布的期望值，实现了一定程度的学习监督，并进一步采用信息熵最小化和 Mixup 正则化来避免无标签数据上标签分布相同的平凡解法和缓解经验确认偏差。

Dec, 2022

正标 - 未标分类的元学习

我们提出了一种元学习方法，用于正负样本未标记分类，从而提高仅使用 PU 数据获得的二元分类器在未知目标任务中的性能。该方法使用包含正向、负向和未标记数据的相关任务，在使用 PU 数据调整模型之后，最小化了测试分类风险。通过使用神经网络将每个实例嵌入到任务特定空间中，我们以密度比率估计 PU 密度的形式估计了贝叶斯最优分类器，其解可作为闭式解求得。经验证明，该方法在一个合成数据集和三个真实数据集上表现优于现有方法。

Jun, 2024

基于噪声负样本自校正的鲁棒正无标记学习

基于正例和未标记数据的学习是一种被称为正例与未标记学习的方法，在文献中已经引起了广泛关注。我们提出了一种新的鲁棒性正例与未标记学习方法，通过训练策略改善标签不确定性的影响并提高学习的准确性和稳定性。该方法利用一种新颖的 “困难度” 度量来区分可能为负例的未标记样本与具有较大标签噪声的未标记样本，并通过迭代式训练策略在训练过程中细化选择负例样本，从而在训练的早期阶段包含更多 “易样本”。

Aug, 2023

Self-PU: 自我增强和校准的正 - 无标记训练

提出了一种新的自主 - 无监督 (Self-PU) 学习框架，该框架无缝地集成了自我训练和无监督学习以解决 Positive-Unlabeled（PU）学习问题，并在 Alzheimer 的疾病分类中实现了显着改善。

Jun, 2020

正负样本学习与 PU 学习的理论比较

本文主要探讨 PU（和 NU）学习相对于 PN 学习的上界估计误差，并发现了简单的条件，当先验概率和 P 与 N 数据的大小给定时，PU 或 NU 学习具有无限 U 数据将优于 PN 学习。

Mar, 2016

正样本、无标记样本和有偏负样本数据分类

本文提出一种新的分类框架来解决二元分类中负数据种类过于多无法完全标注的情况，并引入一种基于实验风险最小化的方法来解决这个问题，方法中使用的每个示例的权重是通过受到正例样本 - 未标记负例样本学习的启发式预处理步骤计算的，并针对所提出的方法导出了估计误差边界。实验结果表明，该算法不仅在正 - 未标记负学习场景中，也在几个基准数据集上的普通正 - 未标记负学习场景中均具有有效性。

Oct, 2018

使用非负风险估计器的正无标记学习

该论文提出了一种针对 PU 学习的非负风险估计方法，可以更好地应对过拟合问题，并允许使用深度神经网络等灵活的模型进行学习。实验结果表明，该风险估计方法可以有效地解决其无偏估计方法中存在的过拟合问题。

Mar, 2017