基于因果推断的在线服务系统干预识别根因分析

KDDJun, 2022

基于因果推断的在线服务系统干预识别根因分析

Causal Inference-Based Root Cause Analysis for Online Service Systems with Intervention Recognition

Mingjie Li, Zeyan Li, Kanglin Yin, Xiaohui Nie, Wenchi Zhang...

TL;DR本文提出了一种新的因果推理任务 —— 干预识别方法，称作 “因果推理基础的根因分析（CIRCA）”，并在在线服务系统监控数据的背景下构建了因果贝叶斯网络。实验结果表明，相对于其他基线方法，CIRCA 能够提高前 1 推荐的召回率达到 25% 的效果。

Abstract

fault diagnosis is critical in many domains, as faults may lead to safety threats or economic losses. In the field of online service systems, operators rely on enormous →

fault diagnosis online service systems root cause analysis causal inference monitoring data

发现论文，激发创造

面向在线无监督根因分析的增量因果图学习

本文提出一种名为 CORAL 的在线根本原因分析框架，结合多元奇异谱分析和累积和统计学的方法，实现了系统实时状态的自动检测和更新原因分析模型，进而定位根本原因。实验表明，该框架在三个真实世界数据集的案例研究中表现出更高的准确性和优越性。

May, 2023

从观测数据中快速检测根本原因，并应用于 IT 系统

引入了一种新的针对阈值性 IT 系统的结构因果模型，并提出了一种新的算法，用于快速检测此类系统中异常的根本原因，方法基于离线数据进行因果性发现，通过代理的干预提出了扩展来放宽根因非因果相关的假设，对于在线数据中的新异常，则利用子图遍历，实验证明了该方法的卓越性能。

Feb, 2024

基于反事実的动态系统根本原因分析

通过使用残差神经网络对动态因果系统进行建模，并得出相应的反事实轨迹分布，我们解决了现有因果方法在确定根本原因时的问题，该方法对静态环境有限且注重导致故障的外部影响，而非结构影响。我们提出的方法在动态系统基准和真实世界河流数据集上具有有效性。

Jun, 2024

从云服务事故调查中挖掘根本原因知识，为 AIOps 服务

通过神经网络技术提取 IT 事件管理中的核心信息，构建一个结构化的原因分析图，并设计了一系列信息检索系统，可以应用于新事件的排查和搜索，以解决类似 Salesforce 这样的云服务中的瓶颈问题。

Apr, 2022

缺失结构知识的异常值根本原因分析

通过使用结构因果模型中的因果反事实的定量贡献分析，最近的工作对异常情况的根本原因分析进行了概念化。本文提出了简化、高效的根本原因分析方法，用于识别唯一的根本原因而非定量贡献分析的任务。对于未知因果有向无环图的应用场景，我们将异常得分最高的变量作为根本原因进行启发式验证。

Jun, 2024

制造业中基于因果贝叶斯网络和知识图谱的交互式智能根本原因分析

制造电动车过程中的根本原因分析 (RCA) 是识别故障原因的过程。传统上，RCA 是通过依靠过程专家知识进行手动进行的。与此同时，传感器网络在制造过程中收集了大量的数据。使用这些数据进行 RCA 使其更高效。然而，纯数据驱动的方法如因果贝叶斯网络在大规模的实际制造过程中存在问题，因为有大量的潜在因果关系。此外，纯数据驱动的方法有可能遗漏已知的因果关系或学习到虚假的因果关系。本文提出了一种结合电动车制造过程的专家知识和数据驱动机器学习方法的交互智能 RCA 工具。它利用制造过程的大规模知识图谱进行推理，并学习因果贝叶斯网络。此外，交互式用户界面使得过程专家可以通过向知识图谱添加和删除信息来对根本原因图进行反馈。这种交互智能 RCA 工具减少了因果贝叶斯网络的学习时间，同时减少了虚假因果关系的数量。因此，交互智能 RCA 工具在专家和机器学习方法之间建立了一个闭环反馈。

Jan, 2024

NetRCA: 一种有效的网络故障原因定位算法

本文提出了一种名为 NetRCA 的算法来解决网络错误本源的准确定位问题，该算法从原始数据中提取有效的派生特征，采用多元时间序列相似性和标签传播来增加数据，最后采用合奏模型来提高性能，并在 ICASSP 2022 AIOps Challenge 数据集上进行实验验证。

Feb, 2022

LogRCA: 分布式服务的基于日志的根因分析

通过使用半监督学习方法处理稀有和未知错误，并设计了处理噪声数据的方法，我们提出了一种名为 LogRCA 的方法，用于识别以最小集合描述根本原因的日志行，其在大规模生产日志数据集上的评估结果表明，在检测候选根本原因的精确性和召回率方面，LogRCA 始终优于基于深度学习和统计分析的对比方法，并且我们还研究了部署的数据平衡方法的影响，结果显示它显著提高了对稀有故障的性能。

May, 2024

利用自动条件独立推理实现因果发现算法的运行时验证 (扩展版本)

CICheck 是一种运行时验证工具，旨在通过可靠性和隐私角度对因果关系发现算法进行加固。CICheck 采用一种声音且可判定的编码方案，将条件独立性关系问题转化为 SMT 问题，并通过四阶段决策过程和三个轻量级优化措施高效解决问题。CICheck 包含两个变体：ED-CICheck 和 ED-CICheck，分别用于检测错误的条件独立性测试（以提高可靠性）和修剪过多的条件独立性测试（以提高隐私性）。

Sep, 2023

多模态因果结构学习与根本原因分析

本研究提出了一种统一的多模态因果结构学习方法 Mulna，通过一个定制的语言模型来学习日志表示，将日志序列转化为时间序列数据，并采用基于对比学习的方法提取多模态中不变和特定于模态的表示。此外，引入了一种考虑关键性能指标的注意机制来评估模态可靠性，并共同学习最终的因果图。最后，通过随机游走重启来模拟系统故障传播并识别潜在的根本原因。对三个真实世界数据集的广泛实验证实了我们提出的框架的有效性。

Feb, 2024