本文提出了一个新的框架来证明具有有限粒子逼近,时间离散化和随机梯度逼近误差的 MFLD 的混沌传播具有时间一致性,并在学习问题和不同梯度估计器的广泛范围内建立了量化的收敛速率保证,包括 SGD 和 SVRG 算法。
Jun, 2023
研究使用梯度算法时非凸问题的抽象理论,利用无穷维度状态空间和概率密度函数最小化能量函数,并研究该梯度流的收敛性。
May, 2019
本文介绍了一种基于控制论、深度学习和统计抽样理论的框架,来研究深度神经网络和神经 ODE 模型,包括 Mean-Field Langevin 动力学的梯度流、时间一致传播的混沌性等问题,并提供了与学习速率、粒子数 / 模型参数和梯度算法迭代次数相关的显式收敛速率和量化一般化误差界限。
Dec, 2019
该研究在连续和离散时间设置下,针对正则化的目标函数给出了关于均值场 Langevin 动力学的简洁、自包含的收敛速率分析。作者证明了命题的关键在于该理论的复合推广的 Gibbs 分布。作者发现该分布与经验风险最小化中的对偶间隙存在关联,这可能使算法收敛的经验评估更加有效。
Jan, 2022
最大似然估计(MLE)的潜变量模型常常被重新设定为参数和概率分布的扩展空间上的优化问题。我们提出了一个受动力系统启发的方法,结合了 Nesterov 的加速梯度法、欠阻尼朗之万方程和粒子方法,使得该算法在连续时间中收敛到函数的唯一最小值。通过数值实验,我们证明该算法比现有方法更快地收敛,并与其他(近似的)MLE 算法相比具有优势。
Dec, 2023
本文研究了离散时间有限 MFG 问题,通过使用熵正则化和 Boltzmann 策略使得固定点迭代收敛到近似固定点,同时提供了在高维场景下使用的近似 Nash 均衡算法以及结合虚拟博弈的深度强化学习方法。
Feb, 2021
该研究通过研究与 Stein 变分梯度下降相关的相互作用粒子系统,在大粒子极限下,粒子系统的经验测量收敛于非局部和非线性 PDE 的解,并证明此限制 PDE 的解的全局存在、唯一性和正则性,最终证明了 PDE 的解在长期限制下收敛于唯一的不变解。
May, 2018
在机器学习中,使用贝叶斯后验概率分布作为模型参数可以避免过度拟合,Stochastic gradient Langevin dynamics (SGLD) 是一种近似贝叶斯后验概率分布的算法,使用易于计算的 Fisher 矩阵近似,使用 Fisher 矩阵预处理可以用于大型神经网络中,并将 SGLD 与 dropout 类似的正则化技术相结合以减少过拟合。
Dec, 2017
研究了从一个平均场 SDE 的稳态分布进行采样的复杂性,或者等效地,从包括相互作用项的概率测度空间中最小化一个函数的复杂性。我们的主要见解是解耦这个问题的两个关键方面:(1)通过有限粒子系统均匀地传播混沌来近似平均场 SDE,以及(2)通过标准对数凹取样器从有限粒子的稳态分布中进行采样。我们的方法在概念上更简单,并且其灵活性允许结合算法和理论的最新进展。这导致在许多设置中提供了更好的保证,包括在平均场区域优化某些两层神经网络的更好保证。
Feb, 2024
本文研究了噪声粒子梯度下降算法,该算法用于求解带熵项的凸函数的最小化,证明了当一类 Log-Sobolev 不等式成立时,此算法在指数级别内收敛,适用于某些两层神经网络风险最小化的问题,并研究了退火动态的收敛性。
Feb, 2022