使用坐标轴下降算法训练带L1正则项的模型
研究了基于Nesterov的对偶平均算法的随机优化算法,在预期损失是强凸的且最优解是(近似)稀疏的问题上进行优化,证明了在局部Lipschitz损失下,在T轮迭代后,我们的解决方案的误差最多为O((slogp)/T),并确立了我们的收敛率是最佳的,且在数值模拟中通过对最小二乘回归问题进行几个基准线的比较,证实了我们方法的有效性。
Jul, 2012
本篇论文研究了关于随机逼近问题的现有算法,提出了两种新型随机梯度算法,并在回归和逻辑分类两种经典的监督学习问题上进行了测试,得到了较好的优化效果。
Jun, 2013
本文提出了一种基于限制记忆的BFGS更新公式和子采样Hessian-向量积的随机拟牛顿方法来有效地、稳健地和可伸缩地处理如何将曲率信息纳入随机逼近方法的问题,并通过机器学习问题上的数值结果展示其前景。
Jan, 2014
证明了解决大规模机器学习中随机目标优化问题的在线随机有限内存版本的Broyden-Fletcher-Goldfarb-Shanno拟牛顿法全局收敛性,数值实验证明其优于随机梯度下降算法。
Sep, 2014
本文提出了一种具有Nesterov加速梯度的随机(在线)拟牛顿方法,用于解决神经网络中的大规模非凸优化问题,结果表明其性能优于传统的二阶oBFGS和oLBFGS方法以及常用的一阶随机梯度方法,还在不同的动量率和批处理大小下进行了说明。
Sep, 2019
介绍了一种新的随机优化算法-基于正交面的近端随机梯度方法(OBProx-SG)-用于解决最流行的稀疏正则化问题,与现有方法相比,在稀疏探索和目标值方面综合表现优异,特别是在凸优化问题上获得了全局最优解,同时在非凸优化问题上获得了稳定点,同时在非凸深度神经网络中获得了更高稀疏度的解而不会牺牲泛化精度。
Apr, 2020
本文提出了一种新的机器学习优化器LODO,它将学习优化(L2O)技术与拟牛顿方法相结合,用于学习对称矩阵向量积的神经表示,从而适应于在测试任务中遍历的损失景观的局部特征。与其他L2O方法不同的是,我们的方法不需要在训练任务分布上进行任何元训练,并验证了其在噪声中的表现,并证明其能够表示一种广泛的逆Hessian。实验表明,简单的替代方法会导致性能变差。最后,我们使用我们的优化器训练一个拥有95k参数的半真实深度神经网络,并获得了与标准神经网络优化器竞争的结果。
Oct, 2022
本研究提出了一种有界存储拟牛顿方法(LG-BFGS),通过在控制存储需求的情况下利用过去的曲率信息来实现非渐近超线性收敛,并在速度和存储需求之间找到了一种平衡。
Jun, 2023
本文提出了一种快速的随机拟牛顿方法,针对平滑性不均匀的情况,通过梯度剪切和方差减小,实现了最优的O(ε^(-3))样本复杂度,并通过简单的超参数调节实现了收敛加速,数值实验证明了该算法优于现有方法。
Mar, 2024