关键词stochastic gradient descent (sgd)
搜索结果 - 3
- 分布式 SGD 的截断非均匀量化
为了解决分布式学习中的通信瓶颈挑战,本研究引入了一种新的两阶段量化策略,旨在增强分布式随机梯度下降(SGD)的通信效率。通过截断来减轻长尾噪声的影响,随后根据梯度的统计特征进行非均匀量化。我们为量化的分布式 SGD 提供了全面的收敛性分析, - 算法稳定性驱动的机器学习去加工化
本文研究机器遗忘问题,并确定算法稳定性的概念 —— 总变差(TV)稳定性,通过噪声随机梯度下降(SGD)设计基于 TV 稳定算法的高效遗忘算法,为了了解准确性与遗忘效率之间的权衡,本文对凸风险最小化的 TV 稳定算法进行了上下界分析,该技术 - IJCAI更快的分布式深度神经网络训练:计算和通信解耦合的随机梯度下降
本文提出了 Computation and Communication Decoupling Stochastic Gradient Descent (CoCoD-SGD) 算法,实现了计算和通信的并行处理,有效减少了通信开销,较传统分布式