随机梯度下降中多级蒙特卡洛的并行复杂度

Oct, 2023

随机梯度下降中多级蒙特卡洛的并行复杂度

On the Parallel Complexity of Multilevel Monte Carlo in Stocahstic Gradient Descent

Kei Ishikawa

TL;DR我们在深度对冲的例子中，通过提出的延迟多层蒙特卡洛（MLMC）梯度估计器，证明了我们的方法在与 SGD 中标准 MLMC 相比的优越的并行复杂度。

Abstract

In the stochastic gradient descent (SGD) for sequential simulations such as the neural stochastic differential equations, the multilevel monte ca

stochastic gradient descent multilevel monte carlo neural stochastic differential equations parallel complexity deep hedging

发现论文，激发创造

多维 SDE 的反向逐层蒙特卡罗估计，无需 Lévy 面积模拟

本文介绍了一种新的多级蒙特卡罗（MLMC）估计器，用于由布朗运动驱动的多维 SDE。通过构造适当的对偶多级校正估计器，我们能够避免模拟 Lévy 面积，即使只有 O（Δt^(1/2)）的收敛性，也能实现平滑和分段光滑支付的 O（Δt²）和 O（Δt^(3/2)）方差的 MLMC 及 O（ε^（-2））估计欧式和亚式看涨和看跌期权价格的复杂度。

Feb, 2012

异步并行随机梯度下降 - 可扩展分布式机器学习算法的数值核心

本文提出了一种利用异步单向通信范例的新型并行更新算法 ASGD，相较于现有方法，ASGD 具有更快（或至少相当）的收敛速度，接近于线性的缩放以及稳定的准确性，在大规模机器学习问题中具有应用前景。

May, 2015

随机拟牛顿 Langevin Monte Carlo

本研究提出了一种新的随机梯度马尔可夫链蒙特卡罗方法，通过使用拟牛顿优化方法的思想考虑局部几何，并使用样本和它们的梯度的有限历史直接近似逆海森矩阵。方法使用密集逆海森近似，同时保持时间和内存复杂度与问题的维数成线性关系，我们的理论分析表明，该方法在渐近无偏和一致后验期望的同时，实现了类似于黎曼方法的快速收敛率和对角线预处理方法的低计算要求。

Feb, 2016

利用机器学习模型加速多层级马尔可夫链蒙特卡洛

利用多层次马尔可夫链蒙特卡洛 (MCMC) 抽样算法的低保真机器学习模型，本文提出了一种有效的方法来加速大规模问题的抽样。通过在层次结构框架中将高保真模型与低保真模型相结合，我们的方法提供了一种计算高效的替代方案，以改善样本的接受率。我们的技术在地下水流问题中获得了相似的准确性，同时将多层抽样加速了两倍。

May, 2024

随机梯度马尔可夫链蒙特卡罗下的非凸贝叶斯学习

本论文主要研究基于非凸贝叶斯学习问题的人工智能、深度神经网络、Langevin Monte Carlo、动态重要性抽样等方面的算法和理论，包括控制变量减少噪声能量估计器方差、基于非可逆性的群链复制交换等算法及解决梯度消失问题的动态重要性抽样等，旨在提高大数据情况下的效率与稳定性。

May, 2023

自适应 SGD 分布式随机优化

本文提出了一种高效的分布式随机优化方法，通过结合适应性与方差约减技术，从而实现任何串行在线学习算法的并行计算，能够在不需要光滑参数的先验知识的情况下实现最优收敛速率，同时通过 Spark 分布式框架的实现能够对大规模逻辑回归问题进行高效处理。

Feb, 2018

随机梯度马尔可夫链蒙特卡洛

本文介绍了一种名为随机梯度马尔可夫链蒙特卡罗（SGMCMC）的可扩展蒙特卡罗算法，其利用数据子抽样技术降低了 MCMC 的迭代成本，并比较了其效率与 MCMC 在基准示例上的异同。

Jul, 2019

带有陈旧梯度的随机梯度 MCMC

在 SG-MCMC 中使用过期参数进行随机梯度计算在收敛性方面影响未知，但我们的理论表明，这仅影响偏差和均方误差，而估计方差与流逝度无关，在分布式系统中有一定的可扩展性和线性加速减少方差。

Oct, 2016

SMC 是您所需的全部：并行强伸缩

在贝叶斯推断的一般框架中，目标分布只能以比例常数进行评估。我们发展了一种完全并行的顺序蒙特卡洛 (pSMC) 方法，可以证明其具有并行的强缩放性，即如果允许异步进程数量增长，则时间复杂度（和每个节点内存）保持有界。对于一些贝叶斯推断问题，我们将 pSMC 方法与 MCMC 方法进行了比较。

Feb, 2024

利用随机梯度下降进行近似贝叶斯推断

本文从随机过程的角度出发，论证了常数学习率随机梯度下降算法（constant SGD）可用作一种近似贝叶斯推断算法，其可优化模型中的超级参数，同时分析了 Langevin Dynamics 和 Stochastic Gradient Fisher Scoring 的近似误差以及 Polyak 平均算法的最优性。在此基础上，提出了一种可扩展的近似马尔科夫链蒙特卡罗（MCMC）算法，即平均随机梯度采样算法（Averaged Stochastic Gradient Sampler）。

Apr, 2017