开放协作中的分布式深度学习

Jun, 2021

Distributed Deep Learning in Open Collaborations

Michael Diskin, Alexey Bukhtiyarov, Max Ryabinin, Lucile Saulnier, Quentin Lhoest...

TL;DR本文研究了 Deep Learning 中在协作训练上的瓶颈，提出了一种适用于协作训练的新算法框架，并在实际条件下展示了该方法对 SwAV 和 ALBERT 的预训练效果，结果表明该方法的性能与传统设置相当，成本仅为传统设置的一小部分。最后，提供了一个由 40 名参与者组成的成功的协作语言模型预训练的详细报告。

Abstract

Modern deep learning applications require increasingly more compute to train state-of-the-art models. To address this demand, large corporations and institutions use dedicated high-performance computing clusters,

deep learning high-performance computing collaborative training swav albert

发现论文，激发创造

使用志愿计算类范式的分布式深度学习

利用异步 SGD 方法进行数据并行，利用可抢占式计算实例，设计了一种适用于志愿计算系统的分布式解决方案来进行深度学习训练，降低了 70-90% 的成本并提高了数据安全性。

Mar, 2021

规模安全分布式训练

本文提出了一种新颖的协议，用于安全的（拜占庭容错）分散式训练，强调通信效率。

Jun, 2021

利用分散式专家混合实现大规模神经网络的众包训练

本文提出了一个名为 Learning@home 的神经网络训练新范式，基于大量的志愿者 PC，可以高效地训练大型网络，与传统的分布式训练方式进行对比并分析了性能、可靠性和架构约束。

Feb, 2020

云、移动和边缘环境中的分布式学习综述

在深度学习、卷积神经网络和大型语言模型的时代，机器学习模型变得越来越复杂，需要大量的计算资源进行推理和训练。为了解决这个挑战，分布式学习已经成为一种关键方法，通过在各种设备和环境中进行并行化来实现。本调查研究对分布式学习的领域进行了探索，涵盖了云端和边缘设置。我们深入研究了数据和模型并行性的核心概念，研究了如何在不同维度和层次上对模型进行分割以优化资源利用和性能。我们分析了针对不同层类型的各种分割方案，包括全连接层、卷积层和循环层，突出了计算效率、通信开销和内存限制之间的权衡。这项调查研究通过比较和对比不同背景下的分布式学习方法，为未来的研究和发展提供了宝贵的见解。

May, 2024

从分布式机器学习到分布式深度学习的调查

本文就分布式机器学习算法进行了全面的调研，综述了当前的技术发展前景和所存在的限制。

Jul, 2023

医疗协作深度学习的分离学习

本研究采用基于分离学习的分布式学习方法，首次将其应用于医学领域，并使用 9000 张眼底照片的二元分类问题和 156,535 张胸部 X 射线的多标记分类问题进行比较。结果表明，相对于单一中心研究和非协作配置，分离学习配置具有更好的性能，这证实了在卫生保健领域中采用深度神经网络的协作培训的益处，并为未来实际应用铺平了道路。

Dec, 2019

基于协作边缘计算的无线网络大规模人工智能模型实施

在这篇文章中，我们提出了协作边缘训练这一新的训练机制，利用可信的边缘设备作为资源池来加速边缘的可持续大型人工智能模型训练，并分析了该系统的优点和可持续调度选择以及对能源需求的实证研究，同时讨论了可持续协作边缘训练面临的挑战和未来发展方向。

Apr, 2024

分布式机器学习调查

本文介绍机器学习技术的发展以及为了应对更加复杂的应用而需要分布式系统来分担机器学习的工作负担，但分布式系统带来的挑战在于高效地并行训练过程和创建一个连贯的模型。文中提供了分布式机器学习领域当前的最新进展和系统概述。

Dec, 2019

Ravnest：异构设备上的去中心化异步训练

该论文提出了一种异步分布式训练方法，利用互联网连接的具有有限资源的普通异构个人电脑的计算能力，在大型现代深度学习模型上取得了良好的性能指标，通过将计算节点高效地组织成具有相似数据传输速度和计算能力的集群，避免了每个节点承载整个模型，并采用并行多环全局参数平均方法实现全局参数平均。同时，论文在异步 SGD 损失函数上进行了解析，推导出了收敛速度的最优复杂度以及参与集群数量的线性加速和时滞参数的界.

Jan, 2024

面向协作智能友好的深度学习架构

本文提出了一种新的协作智能友好型架构，通过将移动设备上计算的中间特征卸载到云端以降低需要发送到云端的数据量，使得在 ResNet-50 模型上，相比现有的云端计算方法，端到端延迟和移动能耗分别平均提高了 53 倍和 68 倍，而精度损失不到 2%。

Feb, 2019