本文介绍了使用本地参数坐标的自然梯度下降法及其在协方差参数化中的应用,为深度学习、变分推断和进化策略等问题的可伸缩结构几何方法开辟了新方向。
Feb, 2021
本文尝试缩小理论优化与实际优化之间的差距,提出了一种可扩展的二阶预处理方法来优化深度模型,利用异构硬件架构进行训练,相比于常规一阶方法在机器翻译、语言建模、点击率预测和图像分类等任务中表现出优异的性能。
Feb, 2020
探讨了自然梯度下降法作为一种二阶优化方法的性质及其在实际应用中的影响,强调了将技术如信任区域和 Tikhonov 正则化等融入实际优化器设计中的必要性。
Dec, 2014
本文研究了使用自然梯度算法在深度学习中的应用以及其与其他三种方法的联系,并提出了使用未标记数据提高自然梯度算法推广误差鲁棒性的新方法,并将自然梯度算法扩展到包括第二阶信息和流形信息。
Jan, 2013
我们展示了在大规模训练中,与一阶方法相比,具有更好收敛性质的二阶训练方法很少被使用,可能是由于计算开销过大。然而,我们通过使用适当的硬件设备,证明了某些参数区间内,自然梯度下降(NGD)这种二阶方法在每次迭代中可以具备与一阶方法类似的计算复杂度。我们提出了一种新的混合数字 - 模拟算法用于神经网络训练,该算法在某些参数范围内等效于 NGD,但避免了解线性系统代价昂贵的求解。我们的算法利用了模拟系统在热力学平衡下的性质,因此需要模拟热力学计算机。在混合数字 - 模拟循环中进行训练,梯度和费舍尔信息矩阵(或任何正定曲率矩阵)在给定的时间间隔内计算,同时进行模拟动力学。在分类任务和语言模型微调任务上,我们通过数值实验证明了这种方法相对于最先进的数字一阶和二阶训练方法的优越性。
May, 2024
本研究提出了一种逐步训练神经网络的方法,该方法通过将现有神经元分裂成多个比较小的单元,从而自适应地增长网络结构。该方法的优点在于其使用了一种名为函数最速下降法的思路来决定神经元裂变的最佳子集并进行最优更新。这种方法提供了一种新的高效优化神经网络结构的方法,特别适合在资源受限的环境下学习轻量级神经结构。
Oct, 2019
本文提供一个简明的证明,只需遵循两个规则即可自动化梯度下降:1)不要过快增加步长,2)不要超出局部曲率;通过遵循这些规则,可以得到对局部几何条件自适应的方法,收敛保证只取决于解的附近的平滑度,因此收敛于任何凸问题中,包括可以最小化任意连续两次可微的凸函数的问题,本文将探讨该方法在一系列凸和非凸问题上的性能。
本文研究了使用一阶和二阶优化方法的隐私保护凸优化问题,其中开发了一种基于正则化的三次牛顿法的私有算法,并在逻辑斯蒂回归问题上获得了性能优越性。
May, 2023
从数据中学习机制模型的方法的发展是一个持续的努力,本文通过探索基于模拟的优化方法,讨论了参数估计与结构推断的挑战。
Apr, 2024
本文探讨了使用 LSTMs 将优化算法设计转化为学习问题的方法,其中,通过让算法自动地利用感兴趣的问题中的结构,得出的学习算法在针对特定任务时比手动设计的算法表现更好,同时在具有相似结构的新任务上也具有很好的泛化性能,其应用范围从简单的凸问题,到神经网络训练和图像风格化等多种任务。
Jun, 2016