SparkNet: 在 Spark 中训练深度神经网络

Nov, 2015

SparkNet: 在 Spark 中训练深度神经网络

SparkNet: Training Deep Networks in Spark

Philipp Moritz, Robert Nishihara, Ion Stoica, Michael I. Jordan

TL;DRSparkNet 是一个在 Spark 上训练深度网络的框架，采用简单的并行随机梯度下降方法，具有良好的可扩展性和高延迟通信容忍度，易于部署和使用，可与现有 Caffe 模型兼容，并针对 ImageNet 数据集进行了性能基准测试。

Abstract

training deep networks is a time-consuming process, with networks for object recognition often requiring multiple days to train. For this reason, leveraging the resources of a →

deep networks training cluster sparknet performance

发现论文，激发创造

DeepSpark：一个基于 Spark 的商用集群分布式深度学习框架

本文介绍了 DeepSpark，这是一个利用 Apache Spark 在普通集群上进行分布式和并行的深度学习的框架，它通过异步的弹性平均随机梯度下降算法迭代地聚合训练结果，以解决现在深度神经网络训练和大规模数据处理方面面临的挑战。

Feb, 2016

FireCaffe: 在计算集群上深度神经网络训练的近线性加速

本文介绍了 FireCaffe，一个可以在 GPU 集群上成功扩展深度神经网络训练的工具，并提出了一些最佳实践方法以帮助比较不同缩放和加速深度神经网络训练方法的进展。在 ImageNet 上训练 GoogLeNet 和 Network-in-Network 时，当集群有 128 个 GPU 时，取得了 47x 和 39x 的加速效果。

Oct, 2015

BigDL：针对大数据的分布式深度学习框架

本研究介绍了 BigDL，一种基于 Apache Spark 的分布式深度学习框架，它支持在生产数据平台上构建深度学习应用程序、直接处理生产数据，并作为端到端数据分析流水线的一部分进行部署和管理，实现了在 Spark 的功能计算模型上的分布式数据并行训练。此外，我们还分享了 BigDL 的用户如何应对挑战，如何简化端到端数据分析和深度学习流水线的搭建和部署。

Apr, 2018

优化 GPU 集群上分布式 DNN 训练的网络性能：1.5 分钟内完成 ImageNet/AlexNet 训练

本论文提出了一种名为 GradientFlow 的通信后端，通过一系列网络优化技术来优化深度神经网络（DNN）的分布式训练，包括环形全局归约、混合精度训练、循环计算 / 通信和懒惰全局归约等，实现了超过 410 倍的训练速度加速比和 1.5 分钟完成 95 个 Epoch 的训练。

Feb, 2019

分布式深度学习的扩展方法

该研究比较了同步和异步随机梯度下降的收敛性，针对 ImageNet 分类问题的训练，在 32 个节点以下异步 SGD 包括弹性平均和 gossiping 能更快收敛，而同步 SGD 在 100 个节点以下能更好地扩展。

Nov, 2016

Ravnest：异构设备上的去中心化异步训练

该论文提出了一种异步分布式训练方法，利用互联网连接的具有有限资源的普通异构个人电脑的计算能力，在大型现代深度学习模型上取得了良好的性能指标，通过将计算节点高效地组织成具有相似数据传输速度和计算能力的集群，避免了每个节点承载整个模型，并采用并行多环全局参数平均方法实现全局参数平均。同时，论文在异步 SGD 损失函数上进行了解析，推导出了收敛速度的最优复杂度以及参与集群数量的线性加速和时滞参数的界.

Jan, 2024

闪电般的 ImageNet/ResNet-50 训练：大规模分布式 SGD

使用批次大小控制和标签平滑来解决大批次训练不稳定性问题；使用 2D-Torus all-reduce 解决梯度同步过程中的开销，实现了在 ABC 集群上在 122 秒内训练 ImageNet/ResNet-50 且精度损失不显著的分布式深度学习技术.

Nov, 2018

利用深度学习和 Apache Spark 进行移动大数据分析

本文介绍了一种基于 Apache Spark 的分布式深度学习框架，可在移动大数据分析中实现快速学习和活动识别。

Feb, 2016

PowerAI DDL

本论文介绍了一款软硬协同优化的分布式深度学习系统，通过使用多环通信模式和 GPU 的大规模并行计算等技术大幅度缩短了深度神经网络的训练时间，并在 Resnet-101 上取得了 33.8% 的验证精度，系统已被集成到 Tensorflow、Caffe 和 Torch 中。

Aug, 2017

Apache Spark 中的大规模网络嵌入

本文提出了一种使用 Apache Spark 的高效有效的分布式算法，用于处理大型网络嵌入问题，并在朋友推荐和物品推荐的场景中展示了该算法的高效性和性能。

Jun, 2021