探索内存故障预测中的错误位：一项深入的相关性研究

Dec, 2023

探索内存故障预测中的错误位：一项深入的相关性研究

Exploring Error Bits for Memory Failure Prediction: An In-Depth Correlative Study

Qiao Yu, Wengui Zhang, Jorge Cardoso, Odej Kao

TL;DR通过对正确able错误和不可纠正错误的关联性进行综合研究，强调空时误差位信息的重要性，以减少UE引起的虚拟机中断约59%。

Abstract

In large-scale datacenters, memory failure is a common cause of server crashes, with uncorrectable errors (UEs) being a major indicator of dual i

发现论文，激发创造

预测过程中的错误分类

使用拓扑数据分析中的Mapper算法，本文提出了一种名为FiFa的方法，用于分类预测过程的失败模式。在MNIST图像添加噪声的情况下，通过对高误差区域的群集分析，可得到预测过程的区别失败模式。本文还演示了两种使用失败模式分类的方法：一是产生一层校正层以通过失败模式的相似性来调整预测，另一种方法是检查失败模式的成员，以说明并调查每种失败模式的特点。

Feb, 2018

基于分层时间记忆的云故障预测：实证评估

该研究介绍了HTM在云系统在线故障预测方面应用的可行性，其结果证明HTM可以高效地帮助预测故障，是（半）监督算法的有趣实际替代品。

Oct, 2021

评估和增强深度推荐系统对抗硬件错误的健壮性

深度推荐系统在不同领域的硬件错误下的鲁棒性研究及其三种错误缓解方法的评估与应用。

Jul, 2023

朝可学习的存储系统可预测性

云计算和大数据技术的快速发展使得存储系统成为数据中心的基础构件，尽管设计和实现可靠的存储系统仍然具有挑战性，但通过预测性预测可以加强存储系统的可靠性，我们对机器学习在存储系统中的应用进行了调查，讨论了各种机制和实地研究，评估了每项研究工作的优势和局限性。

Jul, 2023

TFBEST：双重方面的Transformer与可学习的位置编码用于故障预测

提出了一种新颖的基于Transformer架构的TFBEST（Temporal-fusion Bi-encoder Self-attention Transformer）方法用于预测硬盘故障，通过增强从健康统计序列中获得的上下文信息，预测磁盘潜在故障前剩余天数，并提供了一种新颖的置信边界统计，可帮助制造商在规定时间内更换硬盘。经实验证明，TFBEST架构在预测硬盘剩余寿命上显著优于现有方法，且适用于其他预测应用和相关回归问题。

Sep, 2023

ConDefects: 解决基于LLM的故障定位和程序修复中的数据泄漏问题的新数据集

通过引入名为ConDefects的数据集，我们为故障定位和程序修复这两个任务的研究提供了一个全新的数据集，该数据集消除了已有广泛采用的基准测试中的重叠，并提供了包括Java和Python故障程序以及其修复版本在内的1,254个故障程序和1,625个故障程序。

Oct, 2023

LLM4SecHW：利用专业领域特定的大型语言模型进行硬件调试

介绍了LLM4SecHW，这是一个利用领域特定的大型语言模型（LLM）的硬件调试新框架。通过收集开源硬件设计缺陷和纠正步骤的版本控制数据，利用精调的中型LLM模型，能够准确地识别和修复硬件设计缺陷，实现自动控制硬件质量控制流程。

Jan, 2024

跨CPU架构的内存故障预测研究

大规模数据中心中的内存故障和无法纠正错误发生率之间的相关性，在不同的CPU架构中进行了调查和分析。利用机器学习技术在不同的处理器平台上进行了内存故障预测，并相比现有算法提高了15%的F1分数。最后，提供了一个MLOps框架，以在生产环境中持续改进故障预测。

Jun, 2024

失败训练：并行机器学习训练中数据一致性的影响

通过放宽数据一致性并使用不同的参数服务器配置，本研究探讨了在并行机器学习训练期间的故障容忍性。结果表明，使用无状态参数服务器方法，即使使用过期的权重和梯度，系统仍能保持收敛，并在面临故障时提高准确性，但链式复制和检查点技术则在准确度上受到影响。这些结果表明，在服务器宕机期间允许工作节点持续生成更新，并稍后应用这些更新可以有效提高硬件利用率。此外，尽管资源使用较高，与标准检查点方法相比，无状态参数服务器方法在硬件使用方面具有类似的经济成本，这是由于常见云服务提供商的定价结构所致。

Jun, 2024

使用大规模遥测数据的系统故障检测集成方法

通过对系统遥测数据的深入分析，该研究论文提出了一种集成方法来检测系统故障，并结合了长短期记忆网络、隔离森林、单类支持向量机和局部异常因子等多种机器学习技术，有效识别系统故障，从而提升了计算环境中用户体验和系统可靠性。

Jun, 2024