正类和无标注数据学习的先验分类估计
该研究提出了解决从正类和未标记数据中开发二元分类器的问题的方法,其中主要集中在如何准确估计正类和负类先验概率的问题。通过研究非参数类先验估计和使用混合模型估计混合比例,该研究提供了一个新的算法以解决问题,通过实际转换为低维空间来解决高维密度估计等问题。
Jan, 2016
本文提出一种新的半监督分类方法,通过将无标签数据引入到分类模型中,使模型的下降边界可以与无标签数据的数量成比例而不需要假设簇的条件。经过实验证明这种方法的有效性。
May, 2016
本文提出了一种用于 Positive-Unlabeled 学习的标签分布一致性方法,通过对齐无标签数据和基础事实标签分布的期望值,实现了一定程度的学习监督,并进一步采用信息熵最小化和 Mixup 正则化来避免无标签数据上标签分布相同的平凡解法和缓解经验确认偏差。
Dec, 2022
该论文介绍了一种用于正负标记样本不明确的情景下,从正样本和无标记样本中学习出二分类器的新方法 —— 使用变分原理的方法,可以直接从给定的数据中定量评估贝叶斯分类器的建模误差,并进一步提高该方法的鉴别性能和数值稳定性,还可以通过引入最大化分类间隔的损失函数来使方法更加有效。
Jun, 2019
我们提出了一种新的正未标化学习框架,通过预定义无关的表示学习来学习特征空间,然后采用伪标记技术将未标注样本进行分类,利用嵌入的集中性质。该方法在多个标准正未标化基准数据集上明显优于现有的方法,并且不需要先验知识或类先验的估计。值得注意的是,即使标注数据稀缺,我们的方法仍然有效,而大多数正未标化学习算法则表现不佳。我们还提供了简单的理论分析,解释了我们所提出算法的动机,并为我们的方法建立了泛化保证。
Feb, 2024
本文介绍了使用正样本和未标注样本进行 PU 学习的方法,即使正样本在数据分布中不具有代表性,也可以通过只固定负类分布来解决正偏差问题。通过将负 - 未标注学习与未标注 - 未标注学习相结合或利用递归风险估计方法,可以解决正偏差问题。然后,作者提出一种通用的方法来解决 PU 风险评估的过度配合问题。实验结果表明,无论数据集如何,这两种方法都是有效的。
Feb, 2020
提出了一种名为 proposed 的新框架,即类别先验引导的单正多标签学习,通过引入类别先验估计器并基于该估计值推导出一种无偏风险估计器,实验证明该方法在十个多标签学习基准数据集上比现有方法更加有效和优越。
Sep, 2023
这篇论文研究并扩展了自监督预训练在受限标注数据上的应用,提出了一种新颖的 PU 学习目标正无标噪声对比估计(puNCE)以通过有限监督获得表示,实验证明 puNCE 在受限监督下持续优于现有无监督和监督对比基线。
Jun, 2022