PSPU: 利用伪标签增强正例与未标记学习
该论文提出了一种针对PU学习的非负风险估计方法,可以更好地应对过拟合问题,并允许使用深度神经网络等灵活的模型进行学习。实验结果表明,该风险估计方法可以有效地解决其无偏估计方法中存在的过拟合问题。
Mar, 2017
本文提出一种新的分类框架来解决二元分类中负数据种类过于多无法完全标注的情况,并引入一种基于实验风险最小化的方法来解决这个问题,方法中使用的每个示例的权重是通过受到正例样本-未标记负例样本学习的启发式预处理步骤计算的,并针对所提出的方法导出了估计误差边界。实验结果表明,该算法不仅在正-未标记负学习场景中,也在几个基准数据集上的普通正-未标记负学习场景中均具有有效性。
Oct, 2018
本文介绍了使用正样本和未标注样本进行PU学习的方法,即使正样本在数据分布中不具有代表性,也可以通过只固定负类分布来解决正偏差问题。通过将负-未标注学习与未标注-未标注学习相结合或利用递归风险估计方法,可以解决正偏差问题。然后,作者提出一种通用的方法来解决PU风险评估的过度配合问题。实验结果表明,无论数据集如何,这两种方法都是有效的。
Feb, 2020
提出了一种新的正无标记(PU)学习算法,AdaPU算法,通过在加权的正负(PN)数据集上进行学习单个弱分类器及其权重来优化经验指数损失,该算法在多个基准PU数据集,包括一个大型有挑战性的网络安全数据集上,优于神经网络。
May, 2022
本文提出了一种用于 Positive-Unlabeled 学习的标签分布一致性方法,通过对齐无标签数据和基础事实标签分布的期望值,实现了一定程度的学习监督,并进一步采用信息熵最小化和 Mixup 正则化来避免无标签数据上标签分布相同的平凡解法和缓解经验确认偏差。
Dec, 2022
基于正样本和未标记数据的学习(PU学习)是一种积极研究的机器学习任务,目标是基于包含部分标记的正样本和未标记实例的训练数据集训练一个二元分类模型。本研究提出了一个优化算法,通过建立标签机制、估计倾向性分值和进行参数优化,以实现风险一致性和更有效的方法。
Dec, 2023
我们提出了一种新的正未标化学习框架,通过预定义无关的表示学习来学习特征空间,然后采用伪标记技术将未标注样本进行分类,利用嵌入的集中性质。该方法在多个标准正未标化基准数据集上明显优于现有的方法,并且不需要先验知识或类先验的估计。值得注意的是,即使标注数据稀缺,我们的方法仍然有效,而大多数正未标化学习算法则表现不佳。我们还提供了简单的理论分析,解释了我们所提出算法的动机,并为我们的方法建立了泛化保证。
Feb, 2024
本文提出了一种软标签的PU学习方法,通过根据样本可能是正样本的概率为未标记数据分配软标签,并设计了相应的PU评估指标来评估其性能。实验证明了所提出方法在公共数据集和腾讯游戏的反作弊服务上的有效性。
May, 2024
我们提出了一种元学习方法,用于正负样本未标记分类,从而提高仅使用PU数据获得的二元分类器在未知目标任务中的性能。该方法使用包含正向、负向和未标记数据的相关任务,在使用PU数据调整模型之后,最小化了测试分类风险。通过使用神经网络将每个实例嵌入到任务特定空间中,我们以密度比率估计PU密度的形式估计了贝叶斯最优分类器,其解可作为闭式解求得。经验证明,该方法在一个合成数据集和三个真实数据集上表现优于现有方法。
Jun, 2024
我们介绍了一种新的正无标签(Positive Unlabeled,PU)数据的观测设置,其中预测时的观测也被标记。我们认为这在实践中很常见,并且认为附加信息对于预测很重要,我们称之为“增强PU预测”任务。我们允许标记与特征相关。在这种情况下,我们建立并比较了贝叶斯分类器及其风险与仅基于预测器的无标签数据的分类器的风险。我们在这种情境中引入了几种经验贝叶斯规则的变体,并研究了它们的性能。我们强调了在增强PU情境中应用经典分类规则的危险性(和简易性)-由于没有现有的研究,一个无知的研究者可能会偏离所得的预测结果。我们得出结论:基于最近提出的针对PU情境设计的变分自动编码器的变体与其他考虑的变体相比,在准确性方面在无标签样本上具有优势,并且优于仅基于特征的方法。
Jul, 2024