Aug, 2023

使用 Darshan 日志进行高性能计算机集群的 I/O 突发预测

TL;DR研究了大规模 HPC 集群的集群级 I/O 模式的理解对于减少 I/O 干扰的发生和影响至关重要。通过分析三个超级计算机的 Darshan 报告,提取了系统级读写 I/O 速率在五分钟间隔内的显著波动,并训练机器学习模型预测系统级 I/O 突发事件,准确率超过 90%,并通过模拟脱机 I/O 操作、暂停非关键应用和设计 I/O 感知作业调度方法等方式验证了这一预测的可行性,结果显示,对 I/O 突发程度的估计能够使应用程序运行时间减少最多 5 倍。