快速的连续非光滑正则化风险最小化
本研究旨在探讨优化非光滑非凸正则化器下的平滑非凸损失函数的随机梯度方法。我们提出了两种简单的随机梯度算法,对于有限总和和一般随机优化问题,相较于现有技术水平,其具有更优的收敛复杂度。同时,我们在经验风险最小化中比较了两种算法的实际表现。
Jan, 2019
本文提出针对非光滑正则化惩罚的随机合成问题的最优化方法,在强凸组合问题中证明线性收敛,对于普通组合问题改进了现有的收敛速率,应用于强化学习中的投资组合管理和政策评估,结果验证了我们的理论分析。
Nov, 2017
本文提出了一种新的随机算法,通过将强凸函数的最小化转化为函数规则化的逼近最小化,从而优化了经验风险最小化过程中的性能,实践表明该算法具有稳定性和行之有效的优势
Jun, 2015
我们对基于正则化的连续学习在一系列线性回归任务中进行了统计分析,重点在于不同正则化项如何影响模型性能。我们推导了作为先验估计器的收敛速率,考虑了由矩阵值超参数索引的广义 l2 正则化算法族,包括最小范数估计器和连续岭回归作为特例。随着任务的增加,我们推导了广义 l2 正则化估计器的估计误差的迭代更新公式,从中确定了导致最佳算法的超参数。有趣的是,超参数的选择能够有效平衡前向和后向知识转移的权衡,并适应数据异质性。此外,我们明确地推导出最佳算法的估计误差,它与先验估计器的误差同阶。相比之下,我们的最小范数估计器和连续岭回归的下界显示了它们的子优性。我们的理论分析的副产品是提出了在连续学习中早停和广义 l2 正则化之间的等价性,这可能具有独立的研究价值。最后,我们进行实验以补充我们的理论。
Jun, 2024
提出了一种使用二阶信息进行通信和计算效率高的分布式优化算法来解决具有非平滑正则化项的 ERM 问题。该算法使用逐步二次逼近法,并描述了如何在分布式方式下有效地维护 Hessian 的逼近并解决子问题。该方法适用于广泛的非强凸问题,具有全局线性收敛性,需要更低的通信复杂度。同时,该方法可以收敛于非凸问题,因此具有在深度学习等应用中使用的潜力。初步的计算结果表明,该方法在凸问题上显著提高了通信成本和运行时间,超越了现有技术的方法。
Mar, 2018
本文研究随机算法优化非凸、非光滑的有限和问题。针对此问题,本文提出快速的随机算法,可获得常数迷你批量的收敛性。本文还使用这些算法的变种,证明了比批量近端梯度下降更快的收敛性,并在非凸、非光滑函数的一个子类中证明全局线性收敛率。
May, 2016
本研究考虑在没有标准 Lipschitz 连续性假设的随机弱凸优化问题中,基于新的自适应正则化(步长)策略,我们展示了一类广泛的随机算法包括随机次梯度法在具有恒定错误率的情况下保持 O (1/√K) 的收敛速率。我们的分析基于弱假设:Lipschitz 参数可以由 ||x|| 的一般增长函数界定,或通过独立随机样本进行局部估计。
Jan, 2024
本文提出了一个随机变体的经典算法 -- 立方正则化牛顿方法。该算法可以有效地避免鞍点问题,并在仅需要 $\mathcal {\tilde {O}}(\epsilon^{-3.5})$ 个随机梯度和随机海森向量乘积评估的情况下,为一般光滑的非凸函数找到近似的局部极小值。
Nov, 2017
本文提出了将非凸正则化器中非凸性转移至损失函数的方法,使得正则化器可以转化为熟悉的凸正则化器,而损失函数仍然保证平滑,从而可以使用现有的用于凸正则化器的高效算法进行求解。实验证明,该方法在各种机器学习应用场景中均可显著提高求解速度。
Jun, 2016
本篇论文研究了关于随机逼近问题的现有算法,提出了两种新型随机梯度算法,并在回归和逻辑分类两种经典的监督学习问题上进行了测试,得到了较好的优化效果。
Jun, 2013