从随机混合到快速速率

NIPSJun, 2014

From Stochastic Mixability to Fast Rates

Nishant A. Mehta, Robert C. Williamson

TL;DR本文讨论了经验风险最小化在统计学习和非统计预测模型中的快速收敛特性，其中针对后者提出了随机混合性概念，并证明了快速收敛条件可以建立在该概念上。

Abstract

empirical risk minimization (ERM) is a fundamental learning rule for statistical learning problems where the data is generated according to some unknown distribution $\mathsf{P}$ and returns a hypothesis $f$ chosen from a fixed class $\mathcal{F}$ with small loss $\ell$. In the paramet

empirical risk minimization fast-rates stochastic mixability excess risk learning models

发现论文，激发创造

论经验风险最小化的方差、可接受性和稳定性

本文研究了 Empirical Risk Minimization 在最小化最大化次优误差率下的偏差和方差分解问题，证明了在偏差方面，ERB 存在明显缺陷。同时，文中探讨了 ERM 的可接受性定理，并扩展到固定设计和随机设计的各种模型中。最后，提出了 ERM 的稳定性，以及一定条件下 ERM 的近似极小化不足的情况。

May, 2023

关于平滑数据的经验风险最小化性能

经验风险最小化算法（ERM）在已知数据集且平滑的情况下，能够实现次线性误差，并且具有统计复杂性的概念。

Feb, 2024

重新审视差分隐私的经验风险最小化问题：更快且更广泛

本文研究不同设置下差分隐私经验风险最小化问题，提出了比以前更少的梯度复杂度的算法，并从凸损失函数推广到满足 Polyak-Lojasiewicz 条件的非凸函数，给出比传统算法更紧的上界。

Feb, 2018

统计学习的风险界限

本文提出一个通用的定理给出经验风险最小化器 (ERM) 风险的上界，并且通过采用一些方便的加权经验过程的浓度不等式扩展 Tsybakov 针对 ERM 风险下边缘条件的分析，以便处理一些测量分类器类 “大小” 的方式，特别地，当分类规则属于某个 VC 类且满足边缘条件时，我们推导出 ERM 的新风险上界，并讨论这些上界在极小化意义下的最优性。

Feb, 2007

经验熵、最小化后悔和最小化风险

关于随机设计回归模型的统计学习研究，我们提出了一种聚合经验最小值的方法，并建立了其风险的尖锐 Oracle 不等式，进一步证明了在良好规定的模型下，统计估计和在错误规定的模型下的统计后悔的速率等价的结论。

Aug, 2013

当恶意异常值污染标签时，ERM 和 RERM 是回归问题的最优估计器

本文研究了具有凸且 L-Lipschitz 损失函数的回归问题的经验风险最小化器（ERM）和正则化经验风险最小化器（RERM）。结果可用于许多非正则化和正则化过程，在噪声较弱的情况下为赫伯的 M - 估计量（没有惩罚项或由 L1 范数进行正则化）和在可重现内积希尔伯特空间中的一般正则化学习问题提供结果，噪声可以是重尾的。

Oct, 2019

关于经验风险最小化的细粒度复杂度：核方法和神经网络

本文研究机器学习中的经验风险最小化方法在核支持向量机、核岭回归和神经网络训练等问题上的计算复杂性，并基于复杂理论假设如强指数时间假设，证明了这些问题的条件难度结果。同时，对于许多非凸学习任务中的主要计算负担 —— 经验损失的梯度计算，也给出了类似的难度结果。

Apr, 2017

多类学习能力与点最小风险原则

研究多类预测中的样本复杂度，并提出了设计 ERM 学习器的原则以及使用这些原则来证明对称的多类假说类的样本复杂度的紧束缚定理。此外，通过对 Littlestone 维度的新概括，提供了在线背景和强盗问题中多类学习的错误和遗憾界限的描述。

Aug, 2013

在单次遍历中与经验风险最小化器竞争

本文提出了一种流式算法，可以在一次样本遍历中，线性时间内实现并且使用的空间仅为每个样本大小的线性。算法能够在每个问题上达到与 $ERM$ 相同的统计收敛速率，甚至考虑常数因素，而且算法性能随初始误差下降的超多项式速率，算法易于并行。此外，本文量化了算法与 $ERM$ 竞争的（有限样本）速度。

Dec, 2014

随机凸优化中 ERMs 的样本复杂度

在这项工作中，我们证明了实际上只需要大约 d/ε+1/ε² 个数据点，就足够使得任何经验风险最小化器（ERM）在真实总体上表现良好，从而解决了一个中心基础问题，即学习在真实总体上取得好的性能需要观察多少数据点。

Nov, 2023