选择损失最小的样本使 SGD 更加稳健

Jan, 2020

选择损失最小的样本使 SGD 更加稳健

Choosing the Sample with Lowest Loss makes SGD Robust

Vatsal Shah, Xiaoxia Wu, Sujay Sanghavi

TL;DR本文介绍针对使用随机梯度下降优化的机器学习模型在训练中可能出现的离群值导致参数偏差问题提出的一种新算法，该算法通过选择一组 k 个样本中当前损失最小的进行更新的方式可以提高模型的健壮性和准确性，可能对于各类由凸损失函数构成的机器学习问题都适用。

Abstract

The presence of outliers can potentially significantly skew the parameters of machine learning models trained via stochastic gradient descent

outliers stochastic gradient descent machine learning models robustness properties convex losses

发现论文，激发创造

有序 SGD: 一种新的经验风险最小化随机优化框架

论文提出了一种新的随机优化方法，它有针对性地偏向于高损失值的观测结果，并证明该算法对于凸损失具有亚线性收敛率，对于弱凸损失（非凸）具有关键点，同时在 SVM、逻辑回归和深度学习等模型中获得了更好的测试误差。

Jul, 2019

基于自适应阈值的标签噪声数据鲁棒优化方法：自适应 k

本文研究了在含有标签噪音的数据集上，SGD 算法的优化过程会受到噪音样本的影响，从而导致结果不可靠。作者提出了一种名为 Adaptive-k 的替代方法，该方法在优化过程中选择损失小于一个阈值的样本，而不是使用所有的样本。通过理论分析和实验结果，作者表明采用 Adaptive-k 方法可以得到与去除噪音样本的 oracle 模型相近的性能。Adaptive-k 方法简单而有效，不需要事先知道噪音比率，不需要额外的模型训练，也不会显著增加训练时间。

Mar, 2022

基于 SGD 的 l1 损失在线鲁棒回归

本文研究了在线情况下健壮线性回归问题，提出了一种基于随机梯度下降方法和 L1 损失函数的高效算法，能够在存在污染数据情况下有效检测和去除异常值，算法复杂度与污染比例相关。

Jul, 2020

高维推断中的非凸损失在线随机梯度下降

研究了 SGD 算法在高维参数空间下最简单在线版本的性能，通过对样本数量的阈值来确定参数估计的一致性，其阈值是多项式维度的，取决于信息指数。

Mar, 2020

SGD 达到零损失后会发生什么？—— 数学框架

该论文提出了一个可以研究 Stochastic Gradient Descent 在 overparametrized 模型中的隐式偏差的通用框架，该框架使用一个描述参数极限动态的随机微分方程，并考虑了任意噪声协方差，文中给出了一些新结果，同时可以在线性模型中进行应用。

Oct, 2021

Primal-Dual 视角下的洗牌 SGD 经验风险最小化及改进界限

本文围绕随机梯度下降 (SGD) 优化方法，在经验风险最小化的线性预测器上，利用原始 - 对偶视角对 SGD 进行了分析，并证明了一种细粒度复杂度界的方法，以数据矩阵为基础，证明了它比现有的复杂度界更加紧密地预测了 SGD 的性能。

Jun, 2023

最小化最大损失：如何和为什么？

本文介绍了一种算法，该算法可以将任何在线算法转换为最大损失的最小化器。我们证明，在某些情况下，要在训练集上获得更好的准确性对于获得好的性能至关重要。最后，我们提出了处理异常值的鲁棒版本的方法。

Feb, 2016

鲁棒梯度下降的高效学习

提出了一种构建稳健风险梯度逼近的算法，在实验中证明可以有效地提高广义学习效率并使用更少的资源，而不会过度依赖于数据。

Jun, 2017

一个替代观点：随机梯度下降在何时逃离局部极小值？

本文研究证明随机梯度下降算法可以在一些非凸函数下工作，这说明了为什么 SGD 在神经网络中工作得非常好。

Feb, 2018

损失分解、弱监督学习和标签噪声鲁棒性

本文证明了大多数知名损失函数的经验风险因子可分为线性项，聚合所有标签和不涉及标签的项，并且可以进一步表示为损失的和。这适用于任何 RKHS 中的非光滑、非凸损失。通过估计平均操作符，本研究揭示了这种分解的变量的充分统计量，并将其应用于弱监督学习。最后，本文展示了大多数损失都享有一种依赖于数据的（通过平均算子）噪声鲁棒性。

Feb, 2016