Jul, 2023

科学工作流中网络存储缓存的效果和可预测性

TL;DR大型科学合作通常会有多位科学家在进行不同的分析时访问相同的文件集,这会导致对位于远处的共享数据的重复访问。为了减少广域网流量和数据访问延迟,已经安装了区域性数据存储缓存作为一项新的网络服务。通过对南加州的拍字节级缓存进行研究,我们展示了这个缓存系统能够从广域网中减少67.6%的文件请求,并平均每天减少广域网流量量级的12.3TB(或35.4%)。这个缓存系统还实施了一种策略,在处理大文件时避免清除较小的文件。我们还构建了一个机器学习模型来研究缓存行为的可预测性。测试结果显示,该模型能够准确预测缓存访问、缓存未命中和网络吞吐量,使该模型在未来的资源规划和规划研究中非常有用。