减少计算负载的快速容错分布式 SGD
本文提出了一种用于并行同步随机梯度下降 (SGD) 的方法,通过固定工作节点的计算时间并组合所有节点的不同贡献,优化并提高了计算效率,有效地解决了严重拖慢收敛速度的 straggler 问题。
Oct, 2018
本文研究分布式学习中多个工作者的计算任务调度问题,提出了两种计算调度方案,以及基于计算和通信延迟的平均完成时间分析,实验证明所提出的方案有效且接近最优解。
Oct, 2018
本文介绍了一种新的分布式梯度下降计算方法,通过引入冗余计算任务实现了容错,并允许每个计算服务器在每次迭代中发送多个信息以确保最大化完成任务数量, 从而显著降低了每次迭代的平均完成时间。
Aug, 2018
本文提出了一种基于异步随机梯度下降的快速分布式机器学习算法,采用变量规约技术,可使用常量的学习率,并保证线性收敛到最优解,在 Google 云计算平台上的实验表明,该算法在墙时钟时间和解的质量方面优于最先进的分布式异步算法。
Aug, 2015
本论文提出了一种 Variance Reduced Local SGD 算法,通过消除工作人员之间的梯度方差依赖性,实现了更低的通信复杂性,以实现线性迭代加速,并在三个机器学习任务上得到了卓越的性能表现。
Dec, 2019
本文提出了一种高效的分布式随机优化方法,通过结合适应性与方差约减技术,从而实现任何串行在线学习算法的并行计算,能够在不需要光滑参数的先验知识的情况下实现最优收敛速率,同时通过 Spark 分布式框架的实现能够对大规模逻辑回归问题进行高效处理。
Feb, 2018
本论文证明了局部随机梯度下降算法在凸问题上能够以与小批量随机梯度下降算法相同的速率收敛,并且与工人数量和小批量大小呈线性加速关系,其中通信轮数可以减少长达 T ^ {1/2} 个因子。
May, 2018
本研究分析同步和异步分布式随机梯度下降算法的误差和训练时间之间的权衡,考虑到随机拖延延迟,提出了逐渐变化同步性的方法,并在 CIFAR10 数据集上表现良好。
Mar, 2020
本文研究了分布式训练深度学习模型时采用同步优化的可行性,发现同步优化虽然会浪费一些等待时间,但采用备用工作者的方式可以避免异步噪声并加速收敛,同时能够在保证准确性的前提下提高测试准确率。
Apr, 2016