PORCA:部分根本原因分析
本文提出了一种新的因果推理任务——干预识别方法,称作“因果推理基础的根因分析(CIRCA)”,并在在线服务系统监控数据的背景下构建了因果贝叶斯网络。实验结果表明,相对于其他基线方法,CIRCA 能够提高前1推荐的召回率达到25%的效果。
Jun, 2022
通过VCEI框架,在单个观测设置中对双变量系统进行因果发现,基于因果和机制的独立性原则,人为构造两个设置,通过核最大平均偏差将人为干预转化为一个凸优化问题,通过一系列实验表明VCEI方法是一种有竞争力的因果发现方法。
Nov, 2022
这篇论文提出了一种通过观察时间序列和一个描述正常状态下动态系统中因果关系的无环摘要因果图来识别集体异常的根本原因的方法,并利用d分离将问题分解到多个独立子问题中,并介绍了如何通过比较正常状态下的直接因果效应和异常状态下的直接因果效应来找到其余的根本原因。
Mar, 2023
本文提出一种名为CORAL的在线根本原因分析框架,结合多元奇异谱分析和累积和统计学的方法,实现了系统实时状态的自动检测和更新原因分析模型,进而定位根本原因。实验表明,该框架在三个真实世界数据集的案例研究中表现出更高的准确性和优越性。
May, 2023
PyRCA是一款面向人工智能IT运维的Python机器学习库,提供一个全面的框架来揭示复杂的度量因果关系并自动定位事故的根本原因,包含多种因果发现方法和根本原因评分方法,并提供直观的图形用户界面,方便专业人员易于使用和注入专业知识。
Jun, 2023
本研究提出了一种统一的多模态因果结构学习方法Mulna,通过一个定制的语言模型来学习日志表示,将日志序列转化为时间序列数据,并采用基于对比学习的方法提取多模态中不变和特定于模态的表示。此外,引入了一种考虑关键性能指标的注意机制来评估模态可靠性,并共同学习最终的因果图。最后,通过随机游走重启来模拟系统故障传播并识别潜在的根本原因。对三个真实世界数据集的广泛实验证实了我们提出的框架的有效性。
Feb, 2024
引入了一种新的针对阈值性IT系统的结构因果模型,并提出了一种新的算法,用于快速检测此类系统中异常的根本原因,方法基于离线数据进行因果性发现,通过代理的干预提出了扩展来放宽根因非因果相关的假设,对于在线数据中的新异常,则利用子图遍历,实验证明了该方法的卓越性能。
Feb, 2024
通过使用结构因果模型中的因果反事实的定量贡献分析,最近的工作对异常情况的根本原因分析进行了概念化。本文提出了简化、高效的根本原因分析方法,用于识别唯一的根本原因而非定量贡献分析的任务。对于未知因果有向无环图的应用场景,我们将异常得分最高的变量作为根本原因进行启发式验证。
Jun, 2024
通过引入LEMMA-RCA这一大型数据集,本研究为不同领域和模态的根本原因分析任务提供了大规模、开源的数据集,从IT和OT操作系统中选择了各种实际故障情景,并涵盖微服务、供水分配以及水处理系统,在这些系统中涉及了数百个实体。通过对八种基线方法在不同模式和设置下在该数据集上的性能测试,实验结果表明LEMMA-RCA具有高质量。该数据集可在给定的https链接中公开获得。
Jun, 2024
通过使用残差神经网络对动态因果系统进行建模,并得出相应的反事实轨迹分布,我们解决了现有因果方法在确定根本原因时的问题,该方法对静态环境有限且注重导致故障的外部影响,而非结构影响。我们提出的方法在动态系统基准和真实世界河流数据集上具有有效性。
Jun, 2024