Aug, 2023

高性能研究网络数据传输性能的探究

TL;DR构建用于满足数据密集型分布式工作流需求的高速研究网络,但是由于多种原因,包括 I/O 和网络干扰、服务器配置错误和网络异常,这些网络中的数据传输经常无法达到承诺的传输速率。本文提出了一个可扩展的端到端监测框架,用于收集和存储文件传输的关键性能指标,以明确传输性能。评估结果表明,该提议的框架可以监测每个主机多达 400 个传输和总共超过 40,000 个传输,同时以一秒的精度收集性能统计数据。我们还引入了一种启发式方法,能够自动处理收集到的性能指标,并以 87-98% 的 F-score 识别性能异常的根本原因。