- 自适应和最优的二阶乐观方法在极小极大优化中的应用
我们提出了自适应的、无需线搜索的二阶方法,以最优收敛速度解决凸凹最大最小问题,通过自适应步长,我们的算法采用简单的更新规则,每次迭代仅需解一个线性系统,消除了线搜索和回溯机制的需求,具体而言,我们基于乐观法则并将其与二阶信息合理地结合,与常 - 物理知识神经网络的克罗内克因式化近似曲率
提出了 Krondocker 因式近似曲率法(KFAC)来降低计算成本,使得 PINN 模型能够扩展到更大的网络规模。此方法在小规模问题上与昂贵的二阶方法竞争,对于更高维度的神经网络和 PDEs 有更好的扩展能力,并持续优于一阶方法和 LB - 深度学习的无逆自然梯度下降快速方法
本研究提出了一种名为 FNGD 的快速自然梯度下降方法,通过在第一个迭代周期内计算逆运算,避免了在每次迭代中计算逆运算,从而使计算复杂度接近于一阶方法。通过在图像分类和机器翻译任务上进行实证评估,证明了所提出的 FNGD 方法的高效性。
- 非线性物理网络的挑战
通过理论结果及数值示例,我们揭示部分微分方程的神经切向核心观点下,非线性微分算子呈现不同行为,以及使用二阶方法训练物理信息神经网络的优势和收敛能力,同时解决谱偏差和收敛速度慢的挑战。
- 结构化逆快速自然梯度:大型神经网络的内存高效和数值稳定 KFAC
用结构化的无逆自然梯度下降方法(SINGD)解决了 KFAC 方法在低精度训练中的内存低效和数值不稳定的问题,并在大型神经网络上表现出很好的性能,甚至在半精度上常常优于 AdamW。
- 一种计算高效的稀疏化在线牛顿方法
我们介绍了一种记忆高效的二阶算法:Sparsified Online Newton (SONew) 方法,并将其用于大规模基准测试中,获得了更快的收敛速度、更好的验证性能和更高的训练损失改善。该方法利用结构化稀疏模式来加速收敛,同时相对于其 - AdaSub:低维子空间中使用二阶信息的随机优化
AdaSub 是一种基于二阶信息在低维子空间内计算搜索方向的随机优化算法。相比一阶方法,二阶方法具有更好的收敛特性,但每次迭代需要计算 Hessian 矩阵导致计算开销过大,因此不切实际。为解决这一问题,我们的方法通过选择搜索的子空间维度来 - ICLR用二阶镜头看 Adam
将基于梯度的一阶方法和基于曲率的二阶方法相结合的 AdamQLR 优化器在回归和分类任务中进行评估,以实现与运行时竞争性的广义性能。
- 双层优化中寻找静止点的近最优全一阶算法
本文讨论了双层优化问题,提出了第一和第二阶段方法,探究了优化的复杂度和速度,并提出了适用于分布式双层问题的简单算法。
- MKOR: 基于动量的 Kronecker 因子优化器,采用 Rank-1 更新
提出了一种基于动量和 Krondcker 分解的因子为基础的优化器 MKOR 可以改善深度神经网络(DNN)的训练时间和收敛性能,通过提高二阶信息的更新频率和减少通信复杂度,MKOR 可以在处理大型语言模型时较好地适用,其表现超过了最先进的 - 小批量处理对二阶优化器的泛化性能有所改善
深度神经网络的训练对计算资源消耗较大,为了提高性能,机器学习科学家通常使用随机一阶及二阶优化方法,通过经验研究发现,训练中的批大小对方法的最大准确率有显著影响,并且二阶优化方法在特定批大小下表现出更低的方差,可能需要更少的超参数调整,从而减 - 加速随机概率推断
本文提出了一种基于二阶方法的随机变分推断方法,通过求解变分目标函数的 Hessian 矩阵,选择了两种数值方案来实现这种方法,通过合成和真实数据的实证评估,证实了这种方法的有效性和效率。
- ICML关于联邦学习的二阶优化方法
本研究考虑分布式学习中的标准优化方法 FedAvg,对比了多种具有良好收敛性质的二阶分布式方法,发现 FedAvg 表现出乎意料好,提出了一种使用二阶局部信息和全局线性搜索的新变种。
- LocoProp:通过本地损失优化增强 BackProp
本文介绍了一个基于层次损失构建的一般框架,用于多层神经网络的优化,并使用具有不同传递函数的层次 Bregman 离散来证明其效果,以缩小一阶和二阶仿真器之间的差距。
- ICMLFedNL: 将牛顿类方法应用于联邦学习
本研究提出了一族 Federated Newton Learn 方法,它不仅能够使用于广义线性模型,还可应用于压缩本地 Hessians 等通用收缩压缩算子,具有隐私增强和通信效率等优点,并以实验证明了其与关键基线相比具有卓越的通信复杂度。
- ICML有限学习率随机梯度下降的噪声与波动
本文探究了随机梯度下降(SGD)及其变种在非消失学习率模式下的基本性质,特别是推导了离散时间 SGD 在二次损失函数中的稳态分布,讨论了其影响,并考虑了 SGD 变体的逼近误差、小批量噪音效应、最优贝叶斯推断、从尖锐最小值的逃逸率和几种包括 - 深度学习可扩展的二阶优化
本文尝试缩小理论优化与实际优化之间的差距,提出了一种可扩展的二阶预处理方法来优化深度模型,利用异构硬件架构进行训练,相比于常规一阶方法在机器翻译、语言建模、点击率预测和图像分类等任务中表现出优异的性能。
- Gram-Gauss-Newton 方法:学习超参数神经网络用于回归问题
本文介绍了一种新的 Gram-Gauss-Newton (GGN) 算法用于训练使用方形损失函数的深度神经网络,并借鉴了神经切线核(NTK)的想法。与典型的二阶方法相比,GGN 在每次迭代中只有小的开销。本文还给出了理论结果,证明对于足够广 - ICML一个可靠的分布式二阶算法
本文提出了一种新的分布式广义线性模型训练算法,只需计算各工作器上的 Hessian 矩阵的对角块,然后提出了一种自适应方法以应对近似信息并展示了其在多个基准数据集上表现出的最新结果并显著优于现有算法。
- 逃离鞍点的通用方法
本文介绍了一种通用框架,该框架在最小化 Hessian 基础计算的同时,能够收敛到二阶临界点,侧重于解决非凸优化中的关键问题:鞍点。经实证,该策略具有较好的实际性能。