对无先验正样本无监督学习的对比方法
本文介绍了使用正样本和未标注样本进行 PU 学习的方法,即使正样本在数据分布中不具有代表性,也可以通过只固定负类分布来解决正偏差问题。通过将负 - 未标注学习与未标注 - 未标注学习相结合或利用递归风险估计方法,可以解决正偏差问题。然后,作者提出一种通用的方法来解决 PU 风险评估的过度配合问题。实验结果表明,无论数据集如何,这两种方法都是有效的。
Feb, 2020
这篇论文研究并扩展了自监督预训练在受限标注数据上的应用,提出了一种新颖的 PU 学习目标正无标噪声对比估计(puNCE)以通过有限监督获得表示,实验证明 puNCE 在受限监督下持续优于现有无监督和监督对比基线。
Jun, 2022
该论文介绍了一种用于正负标记样本不明确的情景下,从正样本和无标记样本中学习出二分类器的新方法 —— 使用变分原理的方法,可以直接从给定的数据中定量评估贝叶斯分类器的建模误差,并进一步提高该方法的鉴别性能和数值稳定性,还可以通过引入最大化分类间隔的损失函数来使方法更加有效。
Jun, 2019
该论文综述了 “PU learning”(从正面和未标记数据中学习)的现状,并提出了七个关键的研究问题,旨在探讨如何应对医学诊断和知识库完成等应用中自然产生的这种数据类型。
Nov, 2018
我们提出了一种元学习方法,用于正负样本未标记分类,从而提高仅使用 PU 数据获得的二元分类器在未知目标任务中的性能。该方法使用包含正向、负向和未标记数据的相关任务,在使用 PU 数据调整模型之后,最小化了测试分类风险。通过使用神经网络将每个实例嵌入到任务特定空间中,我们以密度比率估计 PU 密度的形式估计了贝叶斯最优分类器,其解可作为闭式解求得。经验证明,该方法在一个合成数据集和三个真实数据集上表现优于现有方法。
Jun, 2024
本文提出了一种用于 Positive-Unlabeled 学习的标签分布一致性方法,通过对齐无标签数据和基础事实标签分布的期望值,实现了一定程度的学习监督,并进一步采用信息熵最小化和 Mixup 正则化来避免无标签数据上标签分布相同的平凡解法和缓解经验确认偏差。
Dec, 2022
本文介绍了一种解决正样本与未标记数据(常称为 PU 学习)的二元(正负)分类器学习问题的方法,通过学习基于神经网络的数据表示来实现未标记数据的投影,形成可以使用简单的聚类技术轻松识别的两个(正和负)簇,加强了学习的未标记数据簇之间的分离,实现了对模拟 PU 数据的改进性能的实验证明。
Oct, 2023
提出了一种新的自主 - 无监督 (Self-PU) 学习框架,该框架无缝地集成了自我训练和无监督学习以解决 Positive-Unlabeled(PU)学习问题,并在 Alzheimer 的疾病分类中实现了显着改善。
Jun, 2020
本文提出了一种软标签的 PU 学习方法,通过根据样本可能是正样本的概率为未标记数据分配软标签,并设计了相应的 PU 评估指标来评估其性能。实验证明了所提出方法在公共数据集和腾讯游戏的反作弊服务上的有效性。
May, 2024
本文主要探讨 PU(和 NU)学习相对于 PN 学习的上界估计误差,并发现了简单的条件,当先验概率和 P 与 N 数据的大小给定时,PU 或 NU 学习具有无限 U 数据将优于 PN 学习。
Mar, 2016