云图：利用语言模型和因果洞察进行云系统的高效故障定位

Jul, 2024

云图：利用语言模型和因果洞察进行云系统的高效故障定位

Cloud Atlas: Efficient Fault Localization for Cloud Systems using Language Models and Causal Insight

Zhiqiang Xie, Yujia Zheng, Lizi Ottens, Kun Zhang, Christos Kozyrakis...

TL;DR利用大型语言模型，自动生成和验证用于云系统的因果图，以实现云系统的故障定位和效能优化。

Abstract

runtime failure and performance degradation is commonplace in modern cloud systems. For cloud providers, automatically determining the root cause of incidents is paramount to ensuring high reliability and availab

发现论文，激发创造

基于分层时间记忆的云故障预测：实证评估

该研究介绍了HTM在云系统在线故障预测方面应用的可行性，其结果证明HTM可以高效地帮助预测故障，是（半）监督算法的有趣实际替代品。

Oct, 2021

基于因果推断的在线服务系统干预识别根因分析

本文提出了一种新的因果推理任务——干预识别方法，称作“因果推理基础的根因分析（CIRCA）”，并在在线服务系统监控数据的背景下构建了因果贝叶斯网络。实验结果表明，相对于其他基线方法，CIRCA 能够提高前1推荐的召回率达到25%的效果。

Jun, 2022

数据流系统中的因果故障定位

数据流计算是一种用于多种系统工程的范式，具有潜力成为数据驱动应用程序开发的选择。数据流计算的特征之一是对整个系统的数据流图的自然访问。最近，观察到这些数据流图可以被视为完全的图形因果模型，从而开放了将因果推理技术应用于数据流系统的机会。在本篇论文中，我们旨在提供首个实际验证这个想法的论文，并特别关注因果故障定位。我们提供了多个演示，它们展示了如何使用因果推理在三个现代数据流引擎中检测软件错误和数据偏移的多种情况。

Apr, 2023

云系统中的性能问题识别与关系时序异常检测

该研究论文提出了一种关联时间异常检测模型（RTAnomaly），该模型结合了指标的关联和时间信息，通过图注意力层学习指标之间的依赖关系，并利用正无标签学习来解决训练数据中潜在异常的问题。实验证明，RTAnomaly在公共数据集和两个工业数据集上表现优于基准模型，平均F1得分为0.929，Hit@3为0.920。

Jul, 2023

FaultProfIT: 大规模云系统中故障事件票据的层次化故障分析

自动化方法FaultProfIT利用层次引导对比学习对云系统的事故模式进行分析，能够准确预测故障模式并提供系统改进的有关信息。

Feb, 2024

大规模云系统中的知识感知警报聚合：一种混合方法

通过利用预先制定的操作规程 (SOP)，我们提出了COLA，一种基于相关挖掘和LLM推理的新型混合方法，用于在线警报聚合。实验证明，COLA在处理大规模云平台的大量警报时，具有可比较的效率，且优于最先进的方法。

Mar, 2024

大型云系统中的依赖识别事件关联

提出了一种基于依赖感知的事件链接(DiLink)框架，利用文本和服务依赖图信息，在同一服务以及不同服务和工作负载之间提高事件链接的准确性和覆盖率。通过正交Procrustes方法对多模态数据的嵌入进行对齐，实验结果表明，该方法相对于当前最先进方法提高了14%的F1得分。目前正在将该解决方案在来自5个工作负载的610个服务中进行部署，持续支持OCEs改善事件管理和减少手动劳动。

Feb, 2024

基于LLMs的云事件管理的X终生成长学习

通过分析来自软件开发生命周期不同阶段的数据，可以改善大规模云服务的事件管理过程，并借助大型语言模型为开发人员提供自动化的推荐帮助，以更快地识别和减轻关键问题。

Feb, 2024

云边协作环境中微服务系统的根本原因定位

提出了MicroCERCL方法，利用云边协同环境中的内核和应用级别的信息来准确定位云边协同环境中微服务系统的根本原因，并在实验中取得了比现有方法至少提高24.1%的准确性。

Jun, 2024

CHASE: 一个基于因果异构图的多模态微服务系统根本原因分析框架

该论文提出了基于因果异构图的微服务系统的根本原因分析框架CHASE，通过编码相关信息和建模多模态调用图来实现对微服务系统中的异常检测和根本原因定位，实验结果表明该框架在两个公开数据集上取得了平均性能提升36.2%(A@1)和29.4%(Percentage@1)。

Jun, 2024