无监督多数据集的二分类几乎免于监督
本文提出了一种从多个未标记数据集中训练二分类器的方法,通过将每个观察数据归到各自对应的数据集来实现替代数据分类,最终结果在分类一致性方面优于当前最先进的方法。
Feb, 2021
提出了一种新的弱监督学习设置,称为 SU 分类,只需要相似数据对和未标记数据点,可以从 SU 数据中获得分类风险的无偏估计量,并证明其经验风险最小化器的估计误差达到最优参数收敛速率。通过实验证明了该方法的有效性。
Feb, 2018
该研究提出了解决从正类和未标记数据中开发二元分类器的问题的方法,其中主要集中在如何准确估计正类和负类先验概率的问题。通过研究非参数类先验估计和使用混合模型估计混合比例,该研究提供了一个新的算法以解决问题,通过实际转换为低维空间来解决高维密度估计等问题。
Jan, 2016
我们提出了一种元学习方法,用于正负样本未标记分类,从而提高仅使用 PU 数据获得的二元分类器在未知目标任务中的性能。该方法使用包含正向、负向和未标记数据的相关任务,在使用 PU 数据调整模型之后,最小化了测试分类风险。通过使用神经网络将每个实例嵌入到任务特定空间中,我们以密度比率估计 PU 密度的形式估计了贝叶斯最优分类器,其解可作为闭式解求得。经验证明,该方法在一个合成数据集和三个真实数据集上表现优于现有方法。
Jun, 2024
本文介绍一个基于经验风险最小化的无标注二分类方法。该方法有时可能会出现严重的过拟合。因此,我们提出了一种校正函数来限制过拟合,并证明了校正后的风险估计器的一致性和估计误差界限。实验结果显示,我们的方法成功地缓解了 UU 方法的过拟合问题,并显著提高了分类准确性。
Oct, 2019
我们提出了一种新的正未标化学习框架,通过预定义无关的表示学习来学习特征空间,然后采用伪标记技术将未标注样本进行分类,利用嵌入的集中性质。该方法在多个标准正未标化基准数据集上明显优于现有的方法,并且不需要先验知识或类先验的估计。值得注意的是,即使标注数据稀缺,我们的方法仍然有效,而大多数正未标化学习算法则表现不佳。我们还提供了简单的理论分析,解释了我们所提出算法的动机,并为我们的方法建立了泛化保证。
Feb, 2024
论文提出了一种基于对比相似度而非类别标签的多类分类策略,称之为元分类学习,通过优化二元分类器以预测对比相似度从而实现多类分类,提出了概率图模型并衍生出一个简单的损失函数,用于学习基于神经网络的模型,并在监督、非监督跨任务和半监督设置下均取得了明显优于或与最先进方法相当的准确性。
Jan, 2019
该论文介绍了一种用于正负标记样本不明确的情景下,从正样本和无标记样本中学习出二分类器的新方法 —— 使用变分原理的方法,可以直接从给定的数据中定量评估贝叶斯分类器的建模误差,并进一步提高该方法的鉴别性能和数值稳定性,还可以通过引入最大化分类间隔的损失函数来使方法更加有效。
Jun, 2019