Nov, 2013

统一随机梯度下降和拟牛顿法的快速大规模优化

TL;DR该研究提出了一种算法,它结合了随机梯度下降的计算效率和拟牛顿法利用的二阶曲率信息,通过维护和操作每个贡献函数的独立 Hessian 近似值实现不同的方法的统一。该算法适用于高维度优化问题,通过将这些二次近似值存储和操作在一个共享的、时变的、低维度子空间中,保持了计算可行性和限制了内存需求,且需要很少或不需要调整超参数。该算法与早期的随机二阶技术相反,早期技术将每个贡献函数的 Hessian 视为完整 Hessian 的噪声近似,而不是直接估计的目标。在七个不同的优化问题上进行了实验性的改进收敛表现,算法已发布为开源 Python 和 MATLAB 软件包。