无监督多数据集的二分类几乎免于监督

Jun, 2023

无监督多数据集的二分类几乎免于监督

Making Binary Classification from Multiple Unlabeled Datasets Almost Free of Supervision

Yuhao Wu, Xiaobo Xia, Jun Yu, Bo Han, Gang Niu...

TL;DR提出了一种用于多个未标记数据集的二元分类的新框架（MU-OPPO），旨在使用仅知道数据集的类先验排序之间的相对顺序的情况下，解决一个仅有一对类先验的二元分类问题，使用该新框架可使标注成本几乎为零。

Abstract

Training a classifier exploiting a huge amount of supervised data is expensive or even prohibited in a situation, where the labeling cost is high. The remarkable progress in working with weaker forms of supervision is binary classification from multiple unlabeled datasets which requires the knowledge of exact →

binary classification supervised learning class priors numerical relationship classifier training

发现论文，激发创造

利用替代集分类从多个无标签数据集进行二元分类

本文提出了一种从多个未标记数据集中训练二分类器的方法，通过将每个观察数据归到各自对应的数据集来实现替代数据分类，最终结果在分类一致性方面优于当前最先进的方法。

Feb, 2021

从正样本和未标记数据中交替估算分类器和类先验

本文提出了一种新的 PU 学习方法，可同时估计类先验和训练分类器，简单易行且计算效率高，并通过实验验证了该方法的实用性。

Sep, 2018

基于成对相似度和无标签数据的分类

提出了一种新的弱监督学习设置，称为 SU 分类，只需要相似数据对和未标记数据点，可以从 SU 数据中获得分类风险的无偏估计量，并证明其经验风险最小化器的估计误差达到最优参数收敛速率。通过实验证明了该方法的有效性。

Feb, 2018

非参数半监督学习的类别比例

该研究提出了解决从正类和未标记数据中开发二元分类器的问题的方法，其中主要集中在如何准确估计正类和负类先验概率的问题。通过研究非参数类先验估计和使用混合模型估计混合比例，该研究提供了一个新的算法以解决问题，通过实际转换为低维空间来解决高维密度估计等问题。

Jan, 2016

正标 - 未标分类的元学习

我们提出了一种元学习方法，用于正负样本未标记分类，从而提高仅使用 PU 数据获得的二元分类器在未知目标任务中的性能。该方法使用包含正向、负向和未标记数据的相关任务，在使用 PU 数据调整模型之后，最小化了测试分类风险。通过使用神经网络将每个实例嵌入到任务特定空间中，我们以密度比率估计 PU 密度的形式估计了贝叶斯最优分类器，其解可作为闭式解求得。经验证明，该方法在一个合成数据集和三个真实数据集上表现优于现有方法。

Jun, 2024

从两个未标记数据集进行监督分类中缓解过拟合：一种一致的风险校正方法

本文介绍一个基于经验风险最小化的无标注二分类方法。该方法有时可能会出现严重的过拟合。因此，我们提出了一种校正函数来限制过拟合，并证明了校正后的风险估计器的一致性和估计误差界限。实验结果显示，我们的方法成功地缓解了 UU 方法的过拟合问题，并显著提高了分类准确性。

Oct, 2019

对无先验正样本无监督学习的对比方法

我们提出了一种新的正未标化学习框架，通过预定义无关的表示学习来学习特征空间，然后采用伪标记技术将未标注样本进行分类，利用嵌入的集中性质。该方法在多个标准正未标化基准数据集上明显优于现有的方法，并且不需要先验知识或类先验的估计。值得注意的是，即使标注数据稀缺，我们的方法仍然有效，而大多数正未标化学习算法则表现不佳。我们还提供了简单的理论分析，解释了我们所提出算法的动机，并为我们的方法建立了泛化保证。

Feb, 2024

正类和无标注数据学习的先验分类估计

利用惩罚性差异度度量方法，仅通过来自正类的额外样本，可以正确地估计未标记数据集的类先验。

Nov, 2016

无需多类标签的多类分类

论文提出了一种基于对比相似度而非类别标签的多类分类策略，称之为元分类学习，通过优化二元分类器以预测对比相似度从而实现多类分类，提出了概率图模型并衍生出一个简单的损失函数，用于学习基于神经网络的模型，并在监督、非监督跨任务和半监督设置下均取得了明显优于或与最先进方法相当的准确性。

Jan, 2019

学习正样本和未标注数据的变分方法探索

该论文介绍了一种用于正负标记样本不明确的情景下，从正样本和无标记样本中学习出二分类器的新方法 —— 使用变分原理的方法，可以直接从给定的数据中定量评估贝叶斯分类器的建模误差，并进一步提高该方法的鉴别性能和数值稳定性，还可以通过引入最大化分类间隔的损失函数来使方法更加有效。

Jun, 2019