正负样本学习与 PU 学习的理论比较
本文提出一种新的分类框架来解决二元分类中负数据种类过于多无法完全标注的情况,并引入一种基于实验风险最小化的方法来解决这个问题,方法中使用的每个示例的权重是通过受到正例样本 - 未标记负例样本学习的启发式预处理步骤计算的,并针对所提出的方法导出了估计误差边界。实验结果表明,该算法不仅在正 - 未标记负学习场景中,也在几个基准数据集上的普通正 - 未标记负学习场景中均具有有效性。
Oct, 2018
本文介绍了使用正样本和未标注样本进行 PU 学习的方法,即使正样本在数据分布中不具有代表性,也可以通过只固定负类分布来解决正偏差问题。通过将负 - 未标注学习与未标注 - 未标注学习相结合或利用递归风险估计方法,可以解决正偏差问题。然后,作者提出一种通用的方法来解决 PU 风险评估的过度配合问题。实验结果表明,无论数据集如何,这两种方法都是有效的。
Feb, 2020
我们提出了一种新的正未标化学习框架,通过预定义无关的表示学习来学习特征空间,然后采用伪标记技术将未标注样本进行分类,利用嵌入的集中性质。该方法在多个标准正未标化基准数据集上明显优于现有的方法,并且不需要先验知识或类先验的估计。值得注意的是,即使标注数据稀缺,我们的方法仍然有效,而大多数正未标化学习算法则表现不佳。我们还提供了简单的理论分析,解释了我们所提出算法的动机,并为我们的方法建立了泛化保证。
Feb, 2024
该论文综述了 “PU learning”(从正面和未标记数据中学习)的现状,并提出了七个关键的研究问题,旨在探讨如何应对医学诊断和知识库完成等应用中自然产生的这种数据类型。
Nov, 2018
这篇论文研究并扩展了自监督预训练在受限标注数据上的应用,提出了一种新颖的 PU 学习目标正无标噪声对比估计(puNCE)以通过有限监督获得表示,实验证明 puNCE 在受限监督下持续优于现有无监督和监督对比基线。
Jun, 2022
提出了一种新的正无标记(PU)学习算法,AdaPU 算法,通过在加权的正负(PN)数据集上进行学习单个弱分类器及其权重来优化经验指数损失,该算法在多个基准 PU 数据集,包括一个大型有挑战性的网络安全数据集上,优于神经网络。
May, 2022
本文提出了一种基于深度网络记忆特性的新样本选择方法,将大损失的未标记数据标记为 P,并开发了一种能够适当处理此种偏见数据的学习目标,实验证实了该方法在正无标注学习中的卓越表现 。
Jan, 2019
该论文介绍了一种用于正负标记样本不明确的情景下,从正样本和无标记样本中学习出二分类器的新方法 —— 使用变分原理的方法,可以直接从给定的数据中定量评估贝叶斯分类器的建模误差,并进一步提高该方法的鉴别性能和数值稳定性,还可以通过引入最大化分类间隔的损失函数来使方法更加有效。
Jun, 2019
该论文提出了一种针对 PU 学习的非负风险估计方法,可以更好地应对过拟合问题,并允许使用深度神经网络等灵活的模型进行学习。实验结果表明,该风险估计方法可以有效地解决其无偏估计方法中存在的过拟合问题。
Mar, 2017
基于正例和未标记数据的学习是一种被称为正例与未标记学习的方法,在文献中已经引起了广泛关注。我们提出了一种新的鲁棒性正例与未标记学习方法,通过训练策略改善标签不确定性的影响并提高学习的准确性和稳定性。该方法利用一种新颖的 “困难度” 度量来区分可能为负例的未标记样本与具有较大标签噪声的未标记样本,并通过迭代式训练策略在训练过程中细化选择负例样本,从而在训练的早期阶段包含更多 “易样本”。
Aug, 2023