BriefGPT.xyz
Ask
alpha
关键词
minibatch stochastic gradient descent
搜索结果 - 4
小批次随机梯度下降和局部随机梯度下降的稳定性与泛化能力
通过稳定性和泛化性分析研究了小批量随机梯度下降和本地随机梯度下降的学习能力,从而证明它们可以实现线性加速度以达到最佳风险界限。
PDF
9 months ago
SGD 在两层神经网络中寻找并调整特征,具有近乎最优的样本复杂度:以 XOR 问题为案例研究
通过使用小批量随机梯度下降(SGD)优化过程,我们证明在一个二层神经网络上,使用四阶布尔超立方体上带有 “XOR” 函数标签的数据,可以使用 O (d) 的样本达到人口误差 o (1)。我们的主要技术是通过同时训练神经网络的两个层来展示网络
→
PDF
9 months ago
ICML
随机梯度下降中噪声的泛化益处
研究表明在拥有相同迭代次数的情况下,小或适中大小的 batch 在测试集上比非常大的 batch 具有更好的表现,同时研究如何随着预算增长而改变最佳学习率计划,并提供一个基于随机微分方程的 SGD 动态的理论解释。
PDF
4 years ago
训练神经网络中的综合模型、批处理和领域并行性
本文提出了一种在大型分布式内存计算机上使用小批量随机梯度下降(SGD)训练深度神经网络(DNNs)的集成方法,该方法融合了模型、批次和领域并行性,并分析了通信复杂度和理论批次并行方法的扩展极限。
PDF
7 years ago
Prev
Next