探索内存故障预测中的错误位:一项深入的相关性研究
使用拓扑数据分析中的Mapper算法,本文提出了一种名为FiFa的方法,用于分类预测过程的失败模式。在MNIST图像添加噪声的情况下,通过对高误差区域的群集分析,可得到预测过程的区别失败模式。本文还演示了两种使用失败模式分类的方法:一是产生一层校正层以通过失败模式的相似性来调整预测,另一种方法是检查失败模式的成员,以说明并调查每种失败模式的特点。
Feb, 2018
云计算和大数据技术的快速发展使得存储系统成为数据中心的基础构件,尽管设计和实现可靠的存储系统仍然具有挑战性,但通过预测性预测可以加强存储系统的可靠性,我们对机器学习在存储系统中的应用进行了调查,讨论了各种机制和实地研究,评估了每项研究工作的优势和局限性。
Jul, 2023
提出了一种新颖的基于Transformer架构的TFBEST(Temporal-fusion Bi-encoder Self-attention Transformer)方法用于预测硬盘故障,通过增强从健康统计序列中获得的上下文信息,预测磁盘潜在故障前剩余天数,并提供了一种新颖的置信边界统计,可帮助制造商在规定时间内更换硬盘。经实验证明,TFBEST架构在预测硬盘剩余寿命上显著优于现有方法,且适用于其他预测应用和相关回归问题。
Sep, 2023
通过引入名为ConDefects的数据集,我们为故障定位和程序修复这两个任务的研究提供了一个全新的数据集,该数据集消除了已有广泛采用的基准测试中的重叠,并提供了包括Java和Python故障程序以及其修复版本在内的1,254个故障程序和1,625个故障程序。
Oct, 2023
介绍了LLM4SecHW,这是一个利用领域特定的大型语言模型(LLM)的硬件调试新框架。通过收集开源硬件设计缺陷和纠正步骤的版本控制数据,利用精调的中型LLM模型,能够准确地识别和修复硬件设计缺陷,实现自动控制硬件质量控制流程。
Jan, 2024
大规模数据中心中的内存故障和无法纠正错误发生率之间的相关性,在不同的CPU架构中进行了调查和分析。利用机器学习技术在不同的处理器平台上进行了内存故障预测,并相比现有算法提高了15%的F1分数。最后,提供了一个MLOps框架,以在生产环境中持续改进故障预测。
Jun, 2024
通过放宽数据一致性并使用不同的参数服务器配置,本研究探讨了在并行机器学习训练期间的故障容忍性。结果表明,使用无状态参数服务器方法,即使使用过期的权重和梯度,系统仍能保持收敛,并在面临故障时提高准确性,但链式复制和检查点技术则在准确度上受到影响。这些结果表明,在服务器宕机期间允许工作节点持续生成更新,并稍后应用这些更新可以有效提高硬件利用率。此外,尽管资源使用较高,与标准检查点方法相比,无状态参数服务器方法在硬件使用方面具有类似的经济成本,这是由于常见云服务提供商的定价结构所致。
Jun, 2024
通过对系统遥测数据的深入分析,该研究论文提出了一种集成方法来检测系统故障,并结合了长短期记忆网络、隔离森林、单类支持向量机和局部异常因子等多种机器学习技术,有效识别系统故障,从而提升了计算环境中用户体验和系统可靠性。
Jun, 2024