云图:利用语言模型和因果洞察进行云系统的高效故障定位
本文提出了一种新的因果推理任务——干预识别方法,称作“因果推理基础的根因分析(CIRCA)”,并在在线服务系统监控数据的背景下构建了因果贝叶斯网络。实验结果表明,相对于其他基线方法,CIRCA 能够提高前1推荐的召回率达到25%的效果。
Jun, 2022
数据流计算是一种用于多种系统工程的范式,具有潜力成为数据驱动应用程序开发的选择。数据流计算的特征之一是对整个系统的数据流图的自然访问。最近,观察到这些数据流图可以被视为完全的图形因果模型,从而开放了将因果推理技术应用于数据流系统的机会。在本篇论文中,我们旨在提供首个实际验证这个想法的论文,并特别关注因果故障定位。我们提供了多个演示,它们展示了如何使用因果推理在三个现代数据流引擎中检测软件错误和数据偏移的多种情况。
Apr, 2023
该研究论文提出了一种关联时间异常检测模型(RTAnomaly),该模型结合了指标的关联和时间信息,通过图注意力层学习指标之间的依赖关系,并利用正无标签学习来解决训练数据中潜在异常的问题。实验证明,RTAnomaly在公共数据集和两个工业数据集上表现优于基准模型,平均F1得分为0.929,Hit@3为0.920。
Jul, 2023
自动化方法FaultProfIT利用层次引导对比学习对云系统的事故模式进行分析,能够准确预测故障模式并提供系统改进的有关信息。
Feb, 2024
通过利用预先制定的操作规程 (SOP),我们提出了COLA,一种基于相关挖掘和LLM推理的新型混合方法,用于在线警报聚合。实验证明,COLA在处理大规模云平台的大量警报时,具有可比较的效率,且优于最先进的方法。
Mar, 2024
提出了一种基于依赖感知的事件链接(DiLink)框架,利用文本和服务依赖图信息,在同一服务以及不同服务和工作负载之间提高事件链接的准确性和覆盖率。通过正交Procrustes方法对多模态数据的嵌入进行对齐,实验结果表明,该方法相对于当前最先进方法提高了14%的F1得分。目前正在将该解决方案在来自5个工作负载的610个服务中进行部署,持续支持OCEs改善事件管理和减少手动劳动。
Feb, 2024
通过分析来自软件开发生命周期不同阶段的数据,可以改善大规模云服务的事件管理过程,并借助大型语言模型为开发人员提供自动化的推荐帮助,以更快地识别和减轻关键问题。
Feb, 2024
提出了MicroCERCL方法,利用云边协同环境中的内核和应用级别的信息来准确定位云边协同环境中微服务系统的根本原因,并在实验中取得了比现有方法至少提高24.1%的准确性。
Jun, 2024
该论文提出了基于因果异构图的微服务系统的根本原因分析框架CHASE,通过编码相关信息和建模多模态调用图来实现对微服务系统中的异常检测和根本原因定位,实验结果表明该框架在两个公开数据集上取得了平均性能提升36.2%(A@1)和29.4%(Percentage@1)。
Jun, 2024