May, 2024

基于联邦动态平均的高效通信分布式深度学习

TL;DR由于数据的不断增长和去中心化特性,以及现代模型的不断增大,分布式深度学习 (Distributed Deep Learning, DDL) 已成为首选的训练范式。本文提出了一种名为联邦动态平均 (Federated Dynamic Averaging, FDA) 的通信高效的 DDL 策略,它根据模型方差的值动态触发同步,在广泛的学习任务实验中,我们证明 FDA 将通信成本减少了数个数量级,与传统和最新的通信高效算法相比。FDA 能在不牺牲收敛速度的情况下实现这一目标,这与该领域中的权衡相反。此外,我们还展示了 FDA 在多样的数据异质性设置中能够保持鲁棒性能。