MMFeb, 2020

Hoplite:面向任务型分布式系统的高效容错集体通信

TL;DRHoplite 是一种高效的、容错的、用于面向任务的分布式系统的集体通信层,它能够实时计算数据传输计划并通过细粒度流水线方式执行以处理异步和动态工作负载,同时提供容错能力,可应用于异步随机梯度下降等应用,提高传统集体通信效率达 7.8 倍。