规模安全分布式训练

ICMLJun, 2021

Secure Distributed Training at Scale

Eduard Gorbunov, Alexander Borzunov, Michael Diskin, Max Ryabinin

TL;DR本文提出了一种新颖的协议，用于安全的（拜占庭容错）分散式训练，强调通信效率。

Abstract

Many areas of deep learning benefit from using increasingly larger neural networks trained on public data, as is the case for pre-trained models for NLP and computer vision. Training such models requires a lot of

deep learning neural networks pre-trained models distributed training algorithms byzantine tolerance

发现论文，激发创造

利用分散式专家混合实现大规模神经网络的众包训练

本文提出了一个名为 Learning@home 的神经网络训练新范式，基于大量的志愿者 PC，可以高效地训练大型网络，与传统的分布式训练方式进行对比并分析了性能、可靠性和架构约束。

Feb, 2020

医疗数据隐私保护的分布式深度学习

本研究介绍了一种在分布式情况下使用差分隐私训练临床数据神经网络的方法，并在 eICU 协作研究数据库和 The Cancer Genome Atlas 上进行了验证。

Dec, 2018

开放协作中的分布式深度学习

本文研究了 Deep Learning 中在协作训练上的瓶颈，提出了一种适用于协作训练的新算法框架，并在实际条件下展示了该方法对 SwAV 和 ALBERT 的预训练效果，结果表明该方法的性能与传统设置相当，成本仅为传统设置的一小部分。最后，提供了一个由 40 名参与者组成的成功的协作语言模型预训练的详细报告。

Jun, 2021

Ravnest：异构设备上的去中心化异步训练

该论文提出了一种异步分布式训练方法，利用互联网连接的具有有限资源的普通异构个人电脑的计算能力，在大型现代深度学习模型上取得了良好的性能指标，通过将计算节点高效地组织成具有相似数据传输速度和计算能力的集群，避免了每个节点承载整个模型，并采用并行多环全局参数平均方法实现全局参数平均。同时，论文在异步 SGD 损失函数上进行了解析，推导出了收敛速度的最优复杂度以及参与集群数量的线性加速和时滞参数的界.

Jan, 2024

隐私保护机器学习的分布式信任框架

本文介绍了一种分布式基础设施，用于实现分布式代理之间的点对点信任，从而协同执行保护隐私的机器学习工作流程。使用 Hyperledger Aries，Decentralised Identifiers (DIDs) 和 Verifiable Credentials (VCs) 建立了一个分布式信任体系，促进与心理健康护理相关的联邦学习工作流程。

Jun, 2020

多智能体下分布式深度神经网络学习

提出了一种基于跨数据源的深度神经网络训练技术，旨在解决在健康医疗和金融等领域中标记数据和计算资源的短缺问题，并可以在数据敏感应用程序中进行分布式训练。

Oct, 2018

一点即可：绕过分布式学习的防御

分布式学习中存在安全威胁，参与者可以通过小且巧妙的更改避开所有现有的防御措施，使得网络模型性能下降 50%，从而导致 MNIST 和 CIFAR10 模型行为被篡改。

Feb, 2019

无窥视：私有分布式深度学习综述

本文研究了分布式深度学习的多种方法，以保护数据的机密性，同时还允许服务器训练模型。在神经网络的背景下，比较了联邦学习，分离式学习和大批量随机梯度下降等多种方法，以及差分隐私、同态加密、遗忘传输和混淆电路等安全方法，讨论了它们在计算资源、数据泄露和通信效率方面的优缺点，并分享了未来的趋势。

Dec, 2018

分散式深度學習共識控制

本论文研究了分散式深度学习模型的训练，提出了共识距离作为影响中心式和分散式训练效果的关键因素，并在理论和实验上证明了降低共识距离可以提高分散式训练模型的泛化性能。同时，本论文提供了实用的训练指南以缓解训练效果下降。

Feb, 2021

分布式机器学习调查

本文介绍机器学习技术的发展以及为了应对更加复杂的应用而需要分布式系统来分担机器学习的工作负担，但分布式系统带来的挑战在于高效地并行训练过程和创建一个连贯的模型。文中提供了分布式机器学习领域当前的最新进展和系统概述。

Dec, 2019