冗余请求何时会降低延迟?
在云计算系统中,确定冗余策略的适用条件和实现方式是降低时延和成本的关键。通过对任务服务时间分布的对数凹凸性进行研究,该文设计出一种通用的冗余策略,在最大化降低时延和最小化成本之间达到了很好的平衡。
Aug, 2015
本文分析了使用简单复制或擦除编码技术以减少中间结果 straggler 对任务执行时间的影响,通过代价和延迟的比较,发现擦除编码技术在处理长尾延迟任务时比简单复制技术更加有效,提供了实验证明。
Oct, 2017
本文研究分布式计算中冗余任务分配和批处理对计算时间的影响,并发现在拥有固定任务数量的系统中,均匀复制非重叠批次的计算任务可以实现最小化的计算时间。
Aug, 2018
提出了一种使用 Collage-CNN 模型结合 MLaaS 平台的低成本冗余框架来降低 Inference 的尾延迟,并降低推理延迟的变异性的方法。实验表明,相对于以复制为基础的方法,可以将推理的 99-percentile 尾延迟降低 1.47 倍,同时保持高准确性。
Jun, 2019
本文提供了一个分析云计算任务并行执行框架中任务复制对延迟和计算资源成本的权衡的框架,通过回答设计问题,如何在什么时候复制滞后的任务,启动多少副本等。我们的分析表明,对于某些执行时间分布,少量任务复制可以显著降低延迟和计算资源的成本,并提出一种基于任务执行时间的经验分布估计延迟和成本的算法。与 MapReduce 中使用的现有复制策略相比,使用 Google Cluster Trace 中的样本进行评估揭示了进一步的延迟和成本降低。
Mar, 2015
在分布式计算系统中,通过编码存储的数据可以减少迟滞服务器造成的延迟,并减少在洗牌阶段的服务器之间的通信负载。本文通过内部的重复编码来提高外部最大距离可分离(MDS)码的速率,进而提高洗牌阶段的多播机会,从而改善了最佳延迟和通信开销之间的平衡。
Aug, 2018
本文介绍了一种针对分布式计算的编码框架,通过在某些线性计算任务中引入 “计算延迟” 和 “通信负载” 之间的权衡来解决延迟和通信负载问题,从而实现在延迟和负载之间取得权衡来执行分布式计算任务。
Sep, 2016
本文提出了一种分布式优化框架,通过将数据编码为过完备表示,并动态地在每次迭代中舍弃整个计算中的掉队节点,从而减少了延迟和通信传输的负担,结果表明在数据被编码的情况下,对于几种流行的优化算法,包括梯度下降、L-BFGS、在数据并行性下的近端梯度以及在模型并行性下的坐标下降,当掉队者被视为纠删码时,它们都会收敛到原始问题的近似或精确解,收敛结果是确定性的,并且与掉队分布的尾部行为无关,本研究还提出了一种用于大规模数据编码的高效机制,以及证明了用等角紧框架作为编码矩阵的理想性质,并与未编码、异步和数据复制策略进行了比较。
Mar, 2018