SparkNet: 在 Spark 中训练深度神经网络
本文介绍了 DeepSpark,这是一个利用 Apache Spark 在普通集群上进行分布式和并行的深度学习的框架,它通过异步的弹性平均随机梯度下降算法迭代地聚合训练结果,以解决现在深度神经网络训练和大规模数据处理方面面临的挑战。
Feb, 2016
本文介绍了 FireCaffe,一个可以在 GPU 集群上成功扩展深度神经网络训练的工具,并提出了一些最佳实践方法以帮助比较不同缩放和加速深度神经网络训练方法的进展。在 ImageNet 上训练 GoogLeNet 和 Network-in-Network 时,当集群有 128 个 GPU 时,取得了 47x 和 39x 的加速效果。
Oct, 2015
本研究介绍了 BigDL,一种基于 Apache Spark 的分布式深度学习框架,它支持在生产数据平台上构建深度学习应用程序、直接处理生产数据,并作为端到端数据分析流水线的一部分进行部署和管理,实现了在 Spark 的功能计算模型上的分布式数据并行训练。此外,我们还分享了 BigDL 的用户如何应对挑战,如何简化端到端数据分析和深度学习流水线的搭建和部署。
Apr, 2018
本论文提出了一种名为 GradientFlow 的通信后端,通过一系列网络优化技术来优化深度神经网络(DNN)的分布式训练,包括环形全局归约、混合精度训练、循环计算 / 通信和懒惰全局归约等,实现了超过 410 倍的训练速度加速比和 1.5 分钟完成 95 个 Epoch 的训练。
Feb, 2019
该研究比较了同步和异步随机梯度下降的收敛性,针对 ImageNet 分类问题的训练,在 32 个节点以下异步 SGD 包括弹性平均和 gossiping 能更快收敛,而同步 SGD 在 100 个节点以下能更好地扩展。
Nov, 2016
该论文提出了一种异步分布式训练方法,利用互联网连接的具有有限资源的普通异构个人电脑的计算能力,在大型现代深度学习模型上取得了良好的性能指标,通过将计算节点高效地组织成具有相似数据传输速度和计算能力的集群,避免了每个节点承载整个模型,并采用并行多环全局参数平均方法实现全局参数平均。同时,论文在异步 SGD 损失函数上进行了解析,推导出了收敛速度的最优复杂度以及参与集群数量的线性加速和时滞参数的界.
Jan, 2024
使用批次大小控制和标签平滑来解决大批次训练不稳定性问题;使用 2D-Torus all-reduce 解决梯度同步过程中的开销,实现了在 ABC 集群上在 122 秒内训练 ImageNet/ResNet-50 且精度损失不显著的分布式深度学习技术.
Nov, 2018
本论文介绍了一款软硬协同优化的分布式深度学习系统,通过使用多环通信模式和 GPU 的大规模并行计算等技术大幅度缩短了深度神经网络的训练时间,并在 Resnet-101 上取得了 33.8% 的验证精度,系统已被集成到 Tensorflow、Caffe 和 Torch 中。
Aug, 2017
本文提出了一种使用 Apache Spark 的高效有效的分布式算法,用于处理大型网络嵌入问题,并在朋友推荐和物品推荐的场景中展示了该算法的高效性和性能。
Jun, 2021