Mar, 2015

大规模并行计算中高效 straggler 复制

TL;DR本文提供了一个分析云计算任务并行执行框架中任务复制对延迟和计算资源成本的权衡的框架,通过回答设计问题,如何在什么时候复制滞后的任务,启动多少副本等。我们的分析表明,对于某些执行时间分布,少量任务复制可以显著降低延迟和计算资源的成本,并提出一种基于任务执行时间的经验分布估计延迟和成本的算法。与 MapReduce 中使用的现有复制策略相比,使用 Google Cluster Trace 中的样本进行评估揭示了进一步的延迟和成本降低。