May, 2024
SlipStream: 分布式训练大规模 DNN 中的流水线调整
SlipStream: Adapting Pipelines for Distributed Training of Large DNNs Amid Failures
Swapnil Gandhi, Mark Zhao, Athinagoras Skiadopoulos, Christos Kozyrakis
TL;DRSlipStream 是一种在分布式培训系统中有效处理失败的系统,利用功能冗余和管道调度内的泡沫,通过两种优化实现连续培训并最小化或消除训练吞吐量降低。