BriefGPT.xyz
大模型
Ask
alpha
关键词
mini-batch stochastic gradient descent
搜索结果 - 4
ICLR
本地 SGD 收敛快且通信量小
本论文证明了局部随机梯度下降算法在凸问题上能够以与小批量随机梯度下降算法相同的速率收敛,并且与工人数量和小批量大小呈线性加速关系,其中通信轮数可以减少长达 T ^ {1/2} 个因子。
PDF
6 years ago
梯度下降量化 ReLU 网络特征
研究深度神经网络在过度参数化的情况下训练的现象,发现在网络具有小初值和学习率的假设下,权重向量趋向于集中在少量由数据决定的方向,这使得对于给定的输入数据,网络大小独立,只能得到有限数量的函数
PDF
6 years ago
将自适应批量大小与学习率相结合
本论文提出了动态批次大小自适应方法,通过估计随机梯度的方差并将批次大小调整为与目标函数成比例的方式,从而消除了先前所述的学习速率降低的需要。与相关工作不同的是,我们的算法将批次大小与学习速率相结合,直接反映了两者之间的已知关系。在流行的图像
→
PDF
8 years ago
基于稀疏自编码的半监督学习在电话分类中的应用
采用半监督学习方法来提高基于深度神经网络的自动语音识别中声学建模的性能,与无监督初始化后有监督微调不同,我们的方法通过小批量随机梯度下降同时利用未标记和标记数据,我们在 TIMIT 数据库上的基于帧的音素分类实验表明,该方法在等量标记数据和
→
PDF
8 years ago
Prev
Next