May, 2024

SlipStream: 分布式训练大规模 DNN 中的流水线调整

TL;DRSlipStream 是一种在分布式培训系统中有效处理失败的系统,利用功能冗余和管道调度内的泡沫,通过两种优化实现连续培训并最小化或消除训练吞吐量降低。