Jun, 2024

跨 CPU 架构的内存故障预测研究

TL;DR大规模数据中心中的内存故障和无法纠正错误发生率之间的相关性,在不同的 CPU 架构中进行了调查和分析。利用机器学习技术在不同的处理器平台上进行了内存故障预测,并相比现有算法提高了 15% 的 F1 分数。最后,提供了一个 MLOps 框架,以在生产环境中持续改进故障预测。