从未标注的数据中以最少监督训练任何二元分类器

Aug, 2018

从未标注的数据中以最少监督训练任何二元分类器

On the Minimal Supervision for Training Any Binary Classifier from Only Unlabeled Data

Nan Lu, Gang Niu, Aditya Krishna Menon, Masashi Sugiyama

TL;DR该研究通过使用两组未标记的数据和基于经验风险最小化（ERM）的方法，提出了一种可以训练任意（从线性到深度）二分类器的学习方法，并证明了这种方法是一致的；实验证明，该方法可以训练深度模型并优于学习两组未标记数据的现有方法。

Abstract

empirical risk minimization (ERM), with proper loss function and regularization, is the common practice of supervised classification. In this paper, we study training arbitrary (from linear to deep) →

empirical risk minimization supervised classification binary classifier unlabeled data deep models

发现论文，激发创造

统计学习的风险界限

本文提出一个通用的定理给出经验风险最小化器 (ERM) 风险的上界，并且通过采用一些方便的加权经验过程的浓度不等式扩展 Tsybakov 针对 ERM 风险下边缘条件的分析，以便处理一些测量分类器类 “大小” 的方式，特别地，当分类规则属于某个 VC 类且满足边缘条件时，我们推导出 ERM 的新风险上界，并讨论这些上界在极小化意义下的最优性。

Feb, 2007

无任何群组信息的群组鲁棒分类

这项研究提出了一个修订的方法来在完全无偏见的情况下进行训练和验证无偏见模型，通过采用预训练的自监督模型可靠地提取偏见信息，并与我们的验证准则结合使用逻辑调整训练损失函数。我们的实证分析证明了我们的方法克服了所发现的挑战，始终提高了鲁棒准确性，达到与或优于依赖偏见标签进行验证的最先进方法的性能。

Oct, 2023

重新思考引导信息以利用无标签样本：一个标签编码的视角

Unlabeled samples are utilized through label encodings to ensure both prediction discriminability and diversity in Empirical Risk Minimization scenarios with insufficient labeled samples.

Jun, 2024

从两个未标记数据集进行监督分类中缓解过拟合：一种一致的风险校正方法

本文介绍一个基于经验风险最小化的无标注二分类方法。该方法有时可能会出现严重的过拟合。因此，我们提出了一种校正函数来限制过拟合，并证明了校正后的风险估计器的一致性和估计误差界限。实验结果显示，我们的方法成功地缓解了 UU 方法的过拟合问题，并显著提高了分类准确性。

Oct, 2019

正规化与最优多类学习

这项研究的目的是在多类学习中表征正则化的作用，并使用一种最优学习算法来控制模型容量，该算法与结构风险最小化、最大熵原理和贝叶斯推理相结合。同时引入一种新的学习者，通过在无监督学习阶段学习正则化器，实现结构风险最小化的放松，以及推导学习问题的归纳错误率。最后，引入了对偶误差的泛化和不可知情况的哈明图最优学习算法，通过最大熵程序实现最优学习。

Sep, 2023

多类问题的最优学习器

本文证明了多分类问题的效率最优解必须是不正确的，并提出了一种基于 generalized linear classifiers 的效率最优解的算法。

May, 2014

正样本未标记数据的单一样本对照抽样方法与病例对照抽样方法的比较：两种情景的故事

本文研究了基于经验风险最小化（ERM）的分类器在针对阳性无标签数据的情况下可能在单样本场景下显著退化的问题，并引入了针对单样本情况的非负风险分类器，比较了其性能与原始提案的差异。研究发现，在标记了一半或更多阳性观察值的情况下，它们之间存在显著差异。同时，还考虑了将为案例对照数据设计的 ERM 最小化器应用于单样本数据的相反情况，并得出类似的结论。考虑不同情景的区别需要对经验风险的定义进行唯一但关键的改变。

Dec, 2023

多类学习能力与点最小风险原则

研究多类预测中的样本复杂度，并提出了设计 ERM 学习器的原则以及使用这些原则来证明对称的多类假说类的样本复杂度的紧束缚定理。此外，通过对 Littlestone 维度的新概括，提供了在线背景和强盗问题中多类学习的错误和遗憾界限的描述。

Aug, 2013

当恶意异常值污染标签时，ERM 和 RERM 是回归问题的最优估计器

本文研究了具有凸且 L-Lipschitz 损失函数的回归问题的经验风险最小化器（ERM）和正则化经验风险最小化器（RERM）。结果可用于许多非正则化和正则化过程，在噪声较弱的情况下为赫伯的 M - 估计量（没有惩罚项或由 L1 范数进行正则化）和在可重现内积希尔伯特空间中的一般正则化学习问题提供结果，噪声可以是重尾的。

Oct, 2019

元学习不变风险最小化

本研究提出了一种基于元学习的方法来解决数据集分布变化和环境数据中假相关性的问题，并通过实验展示该方法在 Out-of-Distribution（OOD）泛化性能、稳定性和解决 IRMv1 的局限性方面具有显著改进。

Mar, 2021