使用志愿计算类范式的分布式深度学习

Mar, 2021

使用志愿计算类范式的分布式深度学习

Distributed Deep Learning Using Volunteer Computing-Like Paradigm

Medha Atre, Birendra Jha, Ashwini Rao

TL;DR利用异步 SGD 方法进行数据并行，利用可抢占式计算实例，设计了一种适用于志愿计算系统的分布式解决方案来进行深度学习训练，降低了 70-90% 的成本并提高了数据安全性。

Abstract

Use of deep learning (DL) in commercial applications such as image classification, sentiment analysis and speech recognition is increasing. When training DL models with large number of parameters and/or large datasets, cost and speed of training can become prohibitive. Distributed DL t

deep learning distributed training volunteer computing asynchronous sgd preemptible computing

发现论文，激发创造

开放协作中的分布式深度学习

本文研究了 Deep Learning 中在协作训练上的瓶颈，提出了一种适用于协作训练的新算法框架，并在实际条件下展示了该方法对 SwAV 和 ALBERT 的预训练效果，结果表明该方法的性能与传统设置相当，成本仅为传统设置的一小部分。最后，提供了一个由 40 名参与者组成的成功的协作语言模型预训练的详细报告。

Jun, 2021

云、移动和边缘环境中的分布式学习综述

在深度学习、卷积神经网络和大型语言模型的时代，机器学习模型变得越来越复杂，需要大量的计算资源进行推理和训练。为了解决这个挑战，分布式学习已经成为一种关键方法，通过在各种设备和环境中进行并行化来实现。本调查研究对分布式学习的领域进行了探索，涵盖了云端和边缘设置。我们深入研究了数据和模型并行性的核心概念，研究了如何在不同维度和层次上对模型进行分割以优化资源利用和性能。我们分析了针对不同层类型的各种分割方案，包括全连接层、卷积层和循环层，突出了计算效率、通信开销和内存限制之间的权衡。这项调查研究通过比较和对比不同背景下的分布式学习方法，为未来的研究和发展提供了宝贵的见解。

May, 2024

规模安全分布式训练

本文提出了一种新颖的协议，用于安全的（拜占庭容错）分散式训练，强调通信效率。

Jun, 2021

利用分散式专家混合实现大规模神经网络的众包训练

本文提出了一个名为 Learning@home 的神经网络训练新范式，基于大量的志愿者 PC，可以高效地训练大型网络，与传统的分布式训练方式进行对比并分析了性能、可靠性和架构约束。

Feb, 2020

基于边缘计算的智能视频监控系统分布式深度学习模型

本文提出了一种基于深度学习算法的分布式智能视频监控系统，并将其部署在边缘计算环境中，在边缘设备上进行任务级并行和模型级并行训练，从而实现了低延迟和精确的视频分析解决方案，同时实现了模型同步和工作负载平衡。实验结果表明，该分布式边缘计算架构可以提供弹性和可扩展的计算能力，并且提出的分布式智能视频监控系统可以高效地处理视频监控和分析任务。

Apr, 2019

Ravnest：异构设备上的去中心化异步训练

该论文提出了一种异步分布式训练方法，利用互联网连接的具有有限资源的普通异构个人电脑的计算能力，在大型现代深度学习模型上取得了良好的性能指标，通过将计算节点高效地组织成具有相似数据传输速度和计算能力的集群，避免了每个节点承载整个模型，并采用并行多环全局参数平均方法实现全局参数平均。同时，论文在异步 SGD 损失函数上进行了解析，推导出了收敛速度的最优复杂度以及参与集群数量的线性加速和时滞参数的界.

Jan, 2024

分布式机器学习调查

本文介绍机器学习技术的发展以及为了应对更加复杂的应用而需要分布式系统来分担机器学习的工作负担，但分布式系统带来的挑战在于高效地并行训练过程和创建一个连贯的模型。文中提供了分布式机器学习领域当前的最新进展和系统概述。

Dec, 2019

分布式深度学习的扩展方法

该研究比较了同步和异步随机梯度下降的收敛性，针对 ImageNet 分类问题的训练，在 32 个节点以下异步 SGD 包括弹性平均和 gossiping 能更快收敛，而同步 SGD 在 100 个节点以下能更好地扩展。

Nov, 2016

可重构分布式 FPGA 集群设计用于深度学习加速器

基于低功耗的内嵌 FPGA 提出的分布式系统，可用于边缘计算应用，通过分布式调度优化深度学习负载以获得最佳性能，同时可以在多种配置下评估和管理神经网络工作负载。

May, 2023

从分布式机器学习到分布式深度学习的调查

本文就分布式机器学习算法进行了全面的调研，综述了当前的技术发展前景和所存在的限制。

Jul, 2023