粒子梯度下降的误差界和对数 - 索伯列夫和塔拉格兰不等式的推广
本文提出了两个理论,分别使用稳定性和 PAC-Bayesian 结果的非渐进离散时间分析,研究了 Stochastic Gradient Langevin Dynamics(SGLD)在非凸目标下的泛化误差,其边界没有隐含依赖于参数的维数、规范或其他容量测量,优美地刻画了非凸设置中 “快速训练保证泛化” 的现象
Jul, 2017
研究介绍了通过重构自由能地貌的 PI 和 LSI 常数来证明扩散的 Eyring-Kramers 公式,该方法基于 Grunewald 等人引入的双尺度方法和 Chafa"i 与 Malrieu 引入的差异均值估计。
Feb, 2012
本文改进了 Pensia,Jog 和 Loh (2018) 开始的有噪声迭代学习算法的逐步分析,并在 Bu,Zou 和 Veeravalli (2019) 的基础上最近扩展。我们主要的贡献是通过数据相关估计显著提高了随机梯度 Langevin 动力学的互信息界限。我们的方法基于互信息的变分特性和使用基于训练样本子集的数据相关先验来预测小批量梯度。我们的方法在 Russo 和 Zou (2015)、Xu 和 Raginsky (2017) 的信息论框架内广泛适用。与其他依赖于梯度平方范数的边界相比,我们的边界项的数量级要小得多,同时可以与经验风险面的平坦度指标相关联。
Nov, 2019
我们提供了一种新的信息理论泛化界限,用于研究随机梯度 Langevin 动力学(SGLD),在平滑性和耗散性的假设下。我们的界限是独立于时间的,当样本大小增加时会衰减为零,无论迭代次数和步长是否固定。与以前的研究不同,我们通过关注 Kullback-Leibler 散度的时间演化来推导泛化错误界限,这与数据集的稳定性有关,并且是输出参数和输入数据集之间互信息的上界。此外,我们通过展示 SGLD 的损失函数是次指数的来建立了第一个信息理论的泛化界限。这种界限也是独立于时间的,并消除了现有工作中的步长依赖问题,通过将我们的分析与现有的非凸优化误差界限相结合,导致改进的超额风险界限。
Nov, 2023
本文研究 Stein 变分梯度下降算法(SVGD),该算法通过优化一组粒子来逼近目标概率分布,我们提供了该算法的新颖有限时间分析,并提供了一种下降引理以及收敛速率研究,并将有限粒子实现的 SVGD 与其群体版本进行了收敛结果的对比。
Jun, 2020
本文提出一种无需完全核矩阵的矩阵分解即可计算的高斯过程回归模型的对数边际似然的下界。我们通过最大化我们的下界来学习模型参数的近似最大似然方法保留了许多稀疏变分方法的优点,同时减少了参数学习中引入的偏差。我们的方法通过对出现在对数边际似然中的对数行列式项进行更仔细的分析,以及使用共轭梯度法导出涉及二次形式的项的紧凑下界,从而在统一依赖下界最大化的方法和基于共轭梯度的迭代方法的训练高斯过程方面迈出了一步。实验结果表明,相对于其他基于共轭梯度的方法,在相当的训练时间内,我们的模型具有更好的预测性能。
Feb, 2021
本文应用 Bayes-Stability 框架证明算法相关的广义误差界,得到了随机梯度 Langevin 动力学以及其他一些带噪声梯度的方法(例如加动量,小批量和加速,熵 - SGD)的数据相关的新广义误差界,论文结果较之前相关研究更紧凑。
Feb, 2019
基于 Langevin 扩散,提出一种新算法,在球面乘积流形上进行非凸优化和采样,并与 Burer-Monteiro 方法一起,应用于求解具有对角限制的半定规划问题。该算法在有限次迭代中生成 Gibbs 分布,并在 Kullback–Leibler 散度中保证渐进精度,其迭代次数呈多项式级别增长。与结果相结合,我们提供了全局最优性性保证,即使是存在鞍点和局部最小值的问题,算法仍能近似于全局最优解。
Oct, 2020
本文研究了噪声粒子梯度下降算法,该算法用于求解带熵项的凸函数的最小化,证明了当一类 Log-Sobolev 不等式成立时,此算法在指数级别内收敛,适用于某些两层神经网络风险最小化的问题,并研究了退火动态的收敛性。
Feb, 2022
我们以具有未知均值的高斯分布的抽样为动机示例,通过扩散生成模型提供了在强对数凹数据分布假设下的收敛性行为的全面理论保证。我们的评估函数类使用的逼近是利普希茨连续函数,同时通过与相应的抽样估计相结合,对于与数据分布之间的 Wasserstein-2 距离等关键量感兴趣的最佳上界估计提供了显式估计。该论文还引入了基于 L2 准确评分估计假设的结果,以适用于各种随机优化器。该方法在我们的抽样算法上得到了已知的最佳收敛速度。
Nov, 2023