MMFeb, 2020
Hoplite:面向任务型分布式系统的高效容错集体通信
Hoplite: Efficient and Fault-Tolerant Collective Communication for Task-Based Distributed Systems
Siyuan Zhuang, Zhuohan Li, Danyang Zhuo, Stephanie Wang, Eric Liang...
TL;DRHoplite 是一种高效的、容错的、用于面向任务的分布式系统的集体通信层,它能够实时计算数据传输计划并通过细粒度流水线方式执行以处理异步和动态工作负载,同时提供容错能力,可应用于异步随机梯度下降等应用,提高传统集体通信效率达 7.8 倍。