选择损失最小的样本使 SGD 更加稳健
论文提出了一种新的随机优化方法,它有针对性地偏向于高损失值的观测结果,并证明该算法对于凸损失具有亚线性收敛率,对于弱凸损失(非凸)具有关键点,同时在 SVM、逻辑回归和深度学习等模型中获得了更好的测试误差。
Jul, 2019
本文研究了在含有标签噪音的数据集上,SGD 算法的优化过程会受到噪音样本的影响,从而导致结果不可靠。作者提出了一种名为 Adaptive-k 的替代方法,该方法在优化过程中选择损失小于一个阈值的样本,而不是使用所有的样本。通过理论分析和实验结果,作者表明采用 Adaptive-k 方法可以得到与去除噪音样本的 oracle 模型相近的性能。Adaptive-k 方法简单而有效,不需要事先知道噪音比率,不需要额外的模型训练,也不会显著增加训练时间。
Mar, 2022
本文研究了在线情况下健壮线性回归问题,提出了一种基于随机梯度下降方法和 L1 损失函数的高效算法,能够在存在污染数据情况下有效检测和去除异常值,算法复杂度与污染比例相关。
Jul, 2020
该论文提出了一个可以研究 Stochastic Gradient Descent 在 overparametrized 模型中的隐式偏差的通用框架,该框架使用一个描述参数极限动态的随机微分方程,并考虑了任意噪声协方差,文中给出了一些新结果,同时可以在线性模型中进行应用。
Oct, 2021
本文围绕随机梯度下降 (SGD) 优化方法,在经验风险最小化的线性预测器上,利用原始 - 对偶视角对 SGD 进行了分析,并证明了一种细粒度复杂度界的方法,以数据矩阵为基础,证明了它比现有的复杂度界更加紧密地预测了 SGD 的性能。
Jun, 2023
本文介绍了一种算法,该算法可以将任何在线算法转换为最大损失的最小化器。我们证明,在某些情况下,要在训练集上获得更好的准确性对于获得好的性能至关重要。最后,我们提出了处理异常值的鲁棒版本的方法。
Feb, 2016
本文证明了大多数知名损失函数的经验风险因子可分为线性项,聚合所有标签和不涉及标签的项,并且可以进一步表示为损失的和。这适用于任何 RKHS 中的非光滑、非凸损失。通过估计平均操作符,本研究揭示了这种分解的变量的充分统计量,并将其应用于弱监督学习。最后,本文展示了大多数损失都享有一种依赖于数据的(通过平均算子)噪声鲁棒性。
Feb, 2016