- 基于平均随机梯度下降的无偏最小二乘回归
在这篇研究中,我们考虑了一个具有最优解 θ* 和 Hessian 矩阵 H 的在线最小二乘回归问题,并研究了 θ* 的时间平均随机梯度下降估计器。我们提供了 θ* 的无偏估计器,它是时间平均估计器的修改版本,在 k 阶数量级的时间步骤内运行 - 随机学习率对非凸优化中 SGD 动力学的理论分析:通过稳态分布
使用具有随机学习率的随机梯度下降(SGD)的一种变种,研究了其收敛性质,并证明了该方法通过弱假设下的参数更新得到一个稳定分布,从而在非凸优化问题中找到全局最小值,同时评估了泛化误差。
- 学习率自适应的随机梯度下降优化方法:深度学习偏微分方程数值模拟与收敛分析
我们提出并研究了一种基于经验估计目标函数值的学习率自适应方法,用于随机梯度下降优化方法,并在多个神经网络学习问题中实施。我们证明了学习率自适应变体的 SGD 优化方法对于一类简单的二次最小化问题收敛于最小化器。
- DRACO: 分布式异步连续行随机网络矩阵上的联邦学习
通过提出 DRACO 方法,利用连续通信在分布式网络中实现去中心化异步随机梯度下降,解决了分布式学习中的稳定收敛和通信计算耦合等问题,并通过收敛分析和数值实验验证了其有效性。
- 基于模拟内存计算的精确基于梯度的训练
基于模拟设备的梯度训练是一种能耗更低的人工智能解决方案,该论文通过研究模拟加速器上的梯度训练,提出了一个理论基础,并介绍了一种名为 Tiki-Taka 的启发式模拟算法,该算法能够快速收敛到关键点,消除了渐近误差。
- ICML随机梯度下降的长期分布:大偏差分析
本文通过大偏差和随机扰动动态系统的理论,研究了随机梯度下降法在非凸问题中的长期分布,发现在长期运行中,随机梯度下降法的分布类似于温度等于方法步长,能级由问题目标和噪声统计学决定的平衡热力学的玻尔兹曼 - 吉布斯分布,特别是问题的临界区域被访 - 随机 Polyak 步长和动量:收敛保证和实际性能
在本文中,我们提出了一种基于随机梯度下降算法的新型多步骤选择方法来解决大规模随机优化问题,该方法不需要预先了解问题参数并且具有收敛性保证。
- 在线学习与信息指数:关于批次大小和时间 / 复杂度权衡的重要性
通过研究在具有各向同性协变量的多指标目标函数上使用一遍随机梯度下降法(SGD)训练两层神经网络的迭代时间和批次大小之间的影响,我们揭示了最佳批次大小对于缩短迭代时间的优化函数,同时不改变总样本复杂性,并通过 “相关损失 SGD” 来克服此基 - 过参数化神经网络中的对称性:一种均场视角
我们以平均场(Mean-Field)视角分析参数过多的人工神经网络在对称数据条件下的学习动态,探讨了采用随机梯度下降和可能的对称性增强技术(如数据增广、特征平均或等变体系结构)训练的广义浅层网络的学习动态,研究结果发现在对称数据的情况下,数 - 用于建模 SGD 的 Hessian 感知随机微分方程
连续时间近似是研究随机梯度下降从稳定点逃离行为的关键工具,本文提出了基于新颖的随机反向误差分析框架的 Hessian-Aware Stochastic Modified Equation (HA-SME) 来模拟这些行为,在平方目标函数情况 - SGD 训练中偏差动态的理论洞见
机器学习系统通常通过利用数据中的不希望的特征获得偏差,对不同的亚群体造成不同程度的精确度影响。本文探讨了在教师 - 学生模型中,模拟不同数据亚群体的高斯混合模型,偏差如何演化的问题。我们提供了这种设置下线性分类器随机梯度下降动力学的解析描述 - 随机梯度方法在梯度主导条件下的几乎必然收敛速率
基于全局和局部梯度支配的随机梯度下降法收敛速度证明及其在监督学习和强化学习中的应用。
- 用于差分隐私模型训练的分带平方根矩阵因式分解
我们提出了一种新的矩阵分解方法 BSR,通过利用标准矩阵平方根的特性,可以有效地处理大规模问题,并且构造了解析表达式用于处理具有动量和权重衰减的随机梯度下降,从而克服了与当前最先进的差分隐私模型训练相关方法相比的高计算开销,同时证明了这种逼 - 通过区块自助法对差分隐私随机梯度下降进行不确定性量化
提出了一种基于局部差分隐私的新型块自助法用于随机梯度下降,该方法具有可计算性和不需要调整隐私预算的特点,可以广泛应用于估计问题,并通过模拟研究证明了其有效性和有限样本性质,并成为非隐私 SGD 的简单替代数值工具。
- 非光滑非凸优化中的随机放缩和动量
通过在每个时间点对更新进行指数分布随机标量缩放的方式,我们提出的方法对于高度不规则的、非凸非光滑的损失函数在优化神经网络训练中表现出最优的收敛保证。这个结果是通过将在线凸优化算法转化为非凸优化算法的一般框架自然得出的。
- 学习算法在集体行动中的角色
学习算法选择对于集体行动在机器学习中的影响至关重要。本研究通过实证结果和理论分析,展示了集体的有效性和成功性与学习算法的属性密切相关,强调了在研究机器学习中的集体行动影响时,考虑学习算法的必要性。
- 高效在线集合值分类与弱反馈
提出了基于类别的可信区间预测方法(BCCP),旨在解决在线学习中带有强化学习反馈的困境,通过随机梯度下降训练模型并进行多值推断,以实现类别特定的可信区间覆盖保证,并扩展了可信区间预测在在线决策环境中的可靠性和适用性。
- 深度学习时代的可扩展贝叶斯推断:从高斯过程到深度神经网络
本论文介绍了一种将大型神经网络装备上模型的不确定性的方法,并应用了这个方法在 ResNet-50 和深度图像先验网络上进行了实验。
- 通过黎曼梯度下降实现快速量子过程测量
我们在这篇论文中引入了一种改进的随机梯度下降方法,该方法综合了在黎曼优化的最新数值方法,旨在解决高维复杂结构问题中的量子过程测试问题。该方法通过数据驱动的方式实现了准确、数量级更快的结果,并且可以处理不完整的数据,并通过在量子计算机上表征了 - 使用随机梯度下降匹配 k - 稀疏奇偶问题的统计查询下界
在本文中,我们使用随机梯度下降(SGD)在两层全连接神经网络上解决了 k - 奇偶问题。我们展示了 SGD 能够以样本复杂性 O (d^(k-1)),使用 2^(Θ(k)) 个神经元有效地解决 k - 稀疏奇偶问题,从而与统计查询(SQ)模