SGD算法下的非凸截断损失学习
本文提出了一种加速的非平滑随机梯度下降算法- ANSGD,该算法利用常见非平滑损失函数的结构来实现一类问题(包括SVM)的最优收敛速率,是第一个能够实现最优O(1/t)率的随机算法来最小化非平滑损失函数的算法,经实证比较表明,ANSGD明显优于以前的次梯度下降算法,包括SGD。
May, 2012
本文探讨了深度学习模型的一种优化方法——随机梯度下降在泛化能力上的稳定性,提出了一种基于梯度方差的稳定性指标,并在此基础上分别分析了常规非凸损失函数、梯度主导性损失函数和带强凸规则化器的问题,得到了一系列改进的泛化误差界。
Feb, 2018
本文介绍了一种用于构建基于正则化预测函数的凸损失函数的泛化方法——Fenchel-Young损失,并深入研究了其性质,包括与稀疏性、广义熵和分离边界之间的新联系,从而揭示了许多著名损失函数的统一性并方便地创建新的损失函数。此外,本文还推导了有效的预测和训练算法,使得Fenchel-Young损失在理论和实践上都非常有吸引力。
Jan, 2019
本文提供了一种新的解释cross-entropy loss的方法,并基于此推导出一种新的loss函数类,该类函数可以应用于任何有监督的学习任务中,提高收敛速度。
Jul, 2019
本文介绍针对使用随机梯度下降优化的机器学习模型在训练中可能出现的离群值导致参数偏差问题提出的一种新算法,该算法通过选择一组k个样本中当前损失最小的进行更新的方式可以提高模型的健壮性和准确性,可能对于各类由凸损失函数构成的机器学习问题都适用。
Jan, 2020
本论文研究了机器学习中隐含的偏差及其对应的正则化解,并且根据理论证明我们使用的指数型损失函数的正则化效果,可达到最大保边缘的方向,相应的其他损失函数可能会导致收敛于边缘较差的方向。
Jun, 2020
本研究探讨了当经验风险为弱凸函数时,梯度下降的学习性能,并通过将最小负特征值应用于控制梯度下降的稳定性,从而证明了与先前的研究相比,其持有更广范围步长的一般化误差界。当经验风险满足局部弱凸性时,可以通过对网络进行归一化来控制误差,其中,两层神经网络的经验风险可以满足局部弱凸性。通过权衡网络复杂度和缩放,深入探讨了神经网络缩放的隐式偏差,并得出实验结果的支持。
Jan, 2021
本文研究了随机梯度下降方法在训练大规模机器学习模型中的应用,分析了损失函数和数据分布对其泛化性能的影响,提出了改进的数据相关的上界和下降算法来进一步了解深度网络的泛化能力。
Feb, 2021
本文提出了一种针对大型数据集中的标注错误而设计的噪声鲁棒性损失函数,并研究了该损失函数的应用及如何选择适当的损失函数,在 cifar-100 数据集上表现出色,此外还提出了一种新的 Bounded Cross Entropy 损失函数。
Jun, 2023
本研究解决了鲁棒在线凸优化中,由对手在多个回合中引入异常值的问题。提出了一种非凸鲁棒损失函数LEARN,以减少异常值的影响,并开发了基于该损失的鲁棒在线梯度下降算法。研究建立了动态环境下的紧致遗憾保证,并通过实验验证了理论结果,展示了该框架对非凸损失的统一分析能力。
Aug, 2024