基于无度量的自然梯度算法用于玻尔兹曼机联合训练

Jan, 2013

基于无度量的自然梯度算法用于玻尔兹曼机联合训练

Metric-Free Natural Gradient for Joint-Training of Boltzmann Machines

Guillaume Desjardins, Razvan Pascanu, Aaron Courville, Yoshua Bengio

TL;DR本文介绍了度量自由自然梯度（MFNG）算法用于训练玻尔兹曼机，并通过联合训练三层深玻尔兹曼机的任务验证了 MFNG 的更快收敛速度。

Abstract

This paper introduces the metric-free natural gradient (MFNG) algorithm for training boltzmann machines. Similar in spirit to the Hessian-Free method of Martens [8], our algorithm belongs to the family of

metric-free natural gradient boltzmann machines truncated newton methods matrix-vector product deep boltzmann machine

发现论文，激发创造

深度网络的自然梯度再探

本文研究了使用自然梯度算法在深度学习中的应用以及其与其他三种方法的联系，并提出了使用未标记数据提高自然梯度算法推广误差鲁棒性的新方法，并将自然梯度算法扩展到包括第二阶信息和流形信息。

Jan, 2013

深度学习的无逆自然梯度下降快速方法

本研究提出了一种名为 FNGD 的快速自然梯度下降方法，通过在第一个迭代周期内计算逆运算，避免了在每次迭代中计算逆运算，从而使计算复杂度接近于一阶方法。通过在图像分类和机器翻译任务上进行实证评估，证明了所提出的 FNGD 方法的高效性。

Mar, 2024

mL-BFGS: 基于动量的分布式大规模神经网络优化的 L-BFGS

mL-BFGS 是一种基于动量的轻量级 L-BFGS 算法，为大规模分布式深度神经网络 (DNN) 优化带来了拟牛顿法在大规模训练中的潜力。mL-BFGS 通过引入几乎无额外计算成本的动量方案，并显著减少 Hessian 中的随机噪声，从而在随机优化过程中稳定收敛。实验结果表明，mL-BFGS 在迭代和实际时间上均获得了明显的加速效果，并与基准方法（SGD、Adam 和其他拟牛顿法）进行了比较。

Jul, 2023

量子自然梯度

本研究提出了量子自然梯度下降的量子概率论泛化作为用于变分量子电路的通用优化框架的一部分。优化动力学被解释为相对于量子信息几何学的最陡下降方向移动，相应于量子几何张量 (即 Fubini-Study 度量张量的实部)。该研究还提供了一种有效的算法，用于计算参数化量子电路的 Fubini-Study 度量张量的块对角近似，这也是该研究的一个独立的兴趣点。

Sep, 2019

贝叶斯在线自然梯度（BONG）

我们提出了一种基于变分贝叶斯的顺序贝叶斯推断新方法，该方法在在线设置中通过一步自然梯度下降从先验预测开始优化期望对数似然，证明了该方法在共轭模型下可以恢复准确的贝叶斯推断，并在非共轭设置中在计算成本可控情况下，实验上优于其他在线 VB 方法，如神经网络的在线学习。

May, 2024

神经网络的平均场 Langevin 动力学和能量景观

研究使用梯度算法时非凸问题的抽象理论，利用无穷维度状态空间和概率密度函数最小化能量函数，并研究该梯度流的收敛性。

May, 2019

生成对抗网络的梯度归一化

本文提出了一种新的归一化方法 —— 梯度归一化（GN），通过在鉴别器函数上施加硬 1-Lipschitz 约束，从而增加鉴别能力，解决了生成对抗网络中尖锐梯度空间引起的训练不稳定性问题，并在四个数据集上进行了广泛实验，证明了使用梯度归一化训练的 GAN 模型在 Frechet Inception Distance 和 Inception Score 方面优于现有方法。

Sep, 2021

机器学习中的非自然算法

自然梯度下降是一种具有鲁棒训练行为的优化算法，与网络重新参数化具有不变性，通过从流形上的微分同胚群到该状态空间的切空间的函子确定优化器的状态空间，这种算法在训练网络时具有更高的效率。

Dec, 2023

大规模深度学习的可伸缩实用自然梯度

本文提出了 Scalable and Practical Natural Gradient Descent（SP-NGD）算法，一种能够解决大规模深度神经网络训练中 mini-batch size 增加导致泛化能力下降的问题，且能够快速收敛并达到类似一阶优化方法的泛化性能，同时可进行大规模分布式训练。实验结果表明，使用 SP-NGD 算法进行 ImageNet 数据集上的 ResNet-50 模型训练，能够在 5.5 分钟内，使用 32768 的 mini-batch size 和 1024 个 GPU，获得 75.4% 的 top-1 验证精度；且在 873 个步骤内，即使使用极大的 mini-batch size=131072，也能够达到 74.9% 的准确率。

Feb, 2020

学习度量的非参数在线回归

研究在线非参数回归算法，可以学习回归函数平滑的方向；基于回归函数梯度外积矩阵 G，学习 Mahalanobis 度量（可以自适应 G 矩阵的有效秩），同时考虑到 G 的频谱，限制在相同数据序列上的遗憾；作为分析的初步步骤，将 Hazan 和 Megiddo 的非参数在线学习算法扩展，使其能够竞争相对于任意 Mahalanobis 度量计量 Lipschitzness 的函数。

May, 2017