自然梯度下降的结构化二阶方法

我们展示了在大规模训练中，与一阶方法相比，具有更好收敛性质的二阶训练方法很少被使用，可能是由于计算开销过大。然而，我们通过使用适当的硬件设备，证明了某些参数区间内，自然梯度下降（NGD）这种二阶方法在每次迭代中可以具备与一阶方法类似的计算复杂度。我们提出了一种新的混合数字 - 模拟算法用于神经网络训练，该算法在某些参数范围内等效于 NGD，但避免了解线性系统代价昂贵的求解。我们的算法利用了模拟系统在热力学平衡下的性质，因此需要模拟热力学计算机。在混合数字 - 模拟循环中进行训练，梯度和费舍尔信息矩阵（或任何正定曲率矩阵）在给定的时间间隔内计算，同时进行模拟动力学。在分类任务和语言模型微调任务上，我们通过数值实验证明了这种方法相对于最先进的数字一阶和二阶训练方法的优越性。

May, 2024

分裂最陡下降用于增长神经结构

本研究提出了一种逐步训练神经网络的方法，该方法通过将现有神经元分裂成多个比较小的单元，从而自适应地增长网络结构。该方法的优点在于其使用了一种名为函数最速下降法的思路来决定神经元裂变的最佳子集并进行最优更新。这种方法提供了一种新的高效优化神经网络结构的方法，特别适合在资源受限的环境下学习轻量级神经结构。

Oct, 2019

自适应梯度下降（无需下降）

本文提供一个简明的证明，只需遵循两个规则即可自动化梯度下降：1）不要过快增加步长，2）不要超出局部曲率；通过遵循这些规则，可以得到对局部几何条件自适应的方法，收敛保证只取决于解的附近的平滑度，因此收敛于任何凸问题中，包括可以最小化任意连续两次可微的凸函数的问题，本文将探讨该方法在一系列凸和非凸问题上的性能。

Oct, 2019

基于二阶方法的更快差分隐私凸优化

本文研究了使用一阶和二阶优化方法的隐私保护凸优化问题，其中开发了一种基于正则化的三次牛顿法的私有算法，并在逻辑斯蒂回归问题上获得了性能优越性。

May, 2023

通过梯度下降学习随机人口模型

从数据中学习机制模型的方法的发展是一个持续的努力，本文通过探索基于模拟的优化方法，讨论了参数估计与结构推断的挑战。

Apr, 2024

通过梯度下降学习梯度下降

本文探讨了使用 LSTMs 将优化算法设计转化为学习问题的方法，其中，通过让算法自动地利用感兴趣的问题中的结构，得出的学习算法在针对特定任务时比手动设计的算法表现更好，同时在具有相似结构的新任务上也具有很好的泛化性能，其应用范围从简单的凸问题，到神经网络训练和图像风格化等多种任务。

Jun, 2016