倾斜经验风险的泛化误差
本文证明了当损失函数为亚高斯函数时,基于互信息计算的以经验风险最小化为主要准则的监督机器学习算法对训练数据过拟合的泛化误差上界,此外还探究了噪声受限的迭代算法的泛化误差上界。
Jan, 2018
本文探讨了深度学习模型的一种优化方法——随机梯度下降在泛化能力上的稳定性,提出了一种基于梯度方差的稳定性指标,并在此基础上分别分析了常规非凸损失函数、梯度主导性损失函数和带强凸规则化器的问题,得到了一系列改进的泛化误差界。
Feb, 2018
本文应用Bayes-Stability框架证明算法相关的广义误差界,得到了随机梯度 Langevin 动力学以及其他一些带噪声梯度的方法(例如加动量,小批量和加速,熵-SGD)的数据相关的新广义误差界,论文结果较之前相关研究更紧凑。
Feb, 2019
本文首次表征凸形 ERM 在高维广义线性模型推断中的基本统计精度界限,推导出任意损失函数和正则化参数值的紧凑下界,并精确评价了损失函数和正则化参数值的优化调整。
Jun, 2020
本文提出了一种名为tilted empirical risk minimization (TERM)的新框架,通过引入一个称之为tilt的超参数,它能够灵活调整每个个体损失的影响,以实现对离群点的鲁棒性或公平性,同时具有减少方差,促进泛化和处理类别不平衡的能力。我们通过发展批和随机一阶优化方法来解决TERM问题,并证明它相对于常见的替代方案,能够高效地解决这个问题。除了在现有解决方案这些问题,提出方案竞争力之外,我们还将TERM用于多种应用,如在亚组之间实施公平性,减轻离群值的影响以及处理类别失衡问题。
Jul, 2020
本文研究借助指数调控风险函数的方式进行模型优化的问题,提出了倾斜经验风险最小化(TERM)框架及其优化方法,该方法可以灵活地调节损失的影响,减小异常值的影响或增加其公平性,同时具有降低方差和处理不均衡数据的能力,与Value-at-Risk、CVaR、DRO等相关优化目标具有严密的联系,并表现出超越传统ERM框架的性能。
Sep, 2021
通过对概率测度空间进行微分计算的视角,我们提出了一个探索算法的弱广义误差和$L_2$广义误差的新框架。具体而言,我们考虑KL-正则化的经验风险最小化问题,并建立了通用条件,使得在训练样本大小为n的情况下,广义误差的收敛速率是$O(1/n)$。在一隐藏层神经网络的平均场区域的监督学习方面,这些条件反映在对损失和激活函数的适当可积性和正则性假设中。
Jun, 2023
我们提供了一种新的分析框架,用于分析统计学习中基于一阶优化算法的泛化误差,当只能通过一个 oracle 提供的部分观测来获取梯度。我们的分析依赖于梯度相对于数据样本的正则性,并且允许为多个学习问题,包括监督学习、迁移学习、鲁棒学习、分布式学习和使用梯度量化的通信高效学习推导出接近配对的上下界的泛化误差。这些结果适用于平滑和强凸优化问题,以及满足 Polyak-Lojasiewicz 假设的平滑非凸优化问题。我们的上下界依赖于一个新颖的量,它扩展了条件标准差的概念,并衡量了通过访问 oracle 获取梯度的程度。因此,我们的分析为优化统计学习目标的优化提供了精确的含义,即统计学习目标的优化与其梯度估计一样困难。最后,我们证明,在标准监督学习的情况下,批梯度下降法随着批次大小的增加和热启动可以达到近似最优的泛化误差,从而激励我们在实际应用中使用这种优化方案。
Jul, 2023
非独立同分布的数据和带有审查反馈的数据对学习理论中的泛化误差界限有影响,本文通过推导改进的Dvoretzky-Kiefer-Wolfowitz不等式来界定这种影响,并通过分析探索技术的有效性提供新的误差界限模型。
Apr, 2024
本研究解决了在机器学习中评估预测模型质量时缺乏有效置信区间方法的问题。通过对13种不同方法的系统比较,该研究提出了一种统一框架,明确了各种组合的可靠性,并识别出推荐的方法。研究结果为后续相关研究提供了基础,并通过在OpenML上发布数据集和在GitHub上提供代码,促进了研究的开展。
Sep, 2024