探索基于 LLM 的根本原因分析代理

Mar, 2024

探索基于 LLM 的根本原因分析代理

Exploring LLM-based Agents for Root Cause Analysis

Devjeet Roy, Xuchao Zhang, Rashi Bhave, Chetan Bansal, Pedro Las-Casas...

TL;DR利用大语言模型的代理，通过自动化实现有竞争力、高准确性的事故根本原因分析。

Abstract

The growing complexity of cloud based software systems has resulted in incident management becoming an integral part of the software development lifecycle. root cause analysis (RCA), a critical part of the incide

incident management root cause analysis automation large language models empirical evaluation

发现论文，激发创造

RCAgent：云端由自主代理和工具增强的大规模语言模型执行的根本原因分析

RCAgent 是一个工具增强型的自主代理框架，用于实际和注重隐私的工业级云根本原因分析（RCA）应用，通过与 GPT 系列不同的内部部署模型，RCAgent 结合了多种增强功能，并通过自洽性、上下文管理、稳定性和导入领域知识等方法，在根本原因分析的各个方面和任务上都显示出明显和一致的优势，已经成功集成到阿里巴巴云的实时计算平台 Apache Flink 的诊断和问题发现工作流程中。

Oct, 2023

从云服务事故调查中挖掘根本原因知识，为 AIOps 服务

通过神经网络技术提取 IT 事件管理中的核心信息，构建一个结构化的原因分析图，并设计了一系列信息检索系统，可以应用于新事件的排查和搜索，以解决类似 Salesforce 这样的云服务中的瓶颈问题。

Apr, 2022

LogRCA: 分布式服务的基于日志的根因分析

通过使用半监督学习方法处理稀有和未知错误，并设计了处理噪声数据的方法，我们提出了一种名为 LogRCA 的方法，用于识别以最小集合描述根本原因的日志行，其在大规模生产日志数据集上的评估结果表明，在检测候选根本原因的精确性和召回率方面，LogRCA 始终优于基于深度学习和统计分析的对比方法，并且我们还研究了部署的数据平衡方法的影响，结果显示它显著提高了对稀有故障的性能。

May, 2024

使用上下文学习和 GPT-4 自动识别云服务故障根本原因

提出了一种基于上下文学习的自动根因分析方法，通过对比多个大型语言模型，证明其在服务故障诊断中的优越性，实现了与 GPT-3 相比平均提升 24.8% 且在正确性和可读性上分别提升了 43.5% 和 8.7%，从而减少了使用经过微调的模型所需的高计算与维护成本。

Jan, 2024

面向在线无监督根因分析的增量因果图学习

本文提出一种名为 CORAL 的在线根本原因分析框架，结合多元奇异谱分析和累积和统计学的方法，实现了系统实时状态的自动检测和更新原因分析模型，进而定位根本原因。实验表明，该框架在三个真实世界数据集的案例研究中表现出更高的准确性和优越性。

May, 2023

多模态因果结构学习与根本原因分析

本研究提出了一种统一的多模态因果结构学习方法 Mulna，通过一个定制的语言模型来学习日志表示，将日志序列转化为时间序列数据，并采用基于对比学习的方法提取多模态中不变和特定于模态的表示。此外，引入了一种考虑关键性能指标的注意机制来评估模态可靠性，并共同学习最终的因果图。最后，通过随机游走重启来模拟系统故障传播并识别潜在的根本原因。对三个真实世界数据集的广泛实验证实了我们提出的框架的有效性。

Feb, 2024

制造业中基于因果贝叶斯网络和知识图谱的交互式智能根本原因分析

制造电动车过程中的根本原因分析 (RCA) 是识别故障原因的过程。传统上，RCA 是通过依靠过程专家知识进行手动进行的。与此同时，传感器网络在制造过程中收集了大量的数据。使用这些数据进行 RCA 使其更高效。然而，纯数据驱动的方法如因果贝叶斯网络在大规模的实际制造过程中存在问题，因为有大量的潜在因果关系。此外，纯数据驱动的方法有可能遗漏已知的因果关系或学习到虚假的因果关系。本文提出了一种结合电动车制造过程的专家知识和数据驱动机器学习方法的交互智能 RCA 工具。它利用制造过程的大规模知识图谱进行推理，并学习因果贝叶斯网络。此外，交互式用户界面使得过程专家可以通过向知识图谱添加和删除信息来对根本原因图进行反馈。这种交互智能 RCA 工具减少了因果贝叶斯网络的学习时间，同时减少了虚假因果关系的数量。因此，交互智能 RCA 工具在专家和机器学习方法之间建立了一个闭环反馈。

Jan, 2024

NetRCA: 一种有效的网络故障原因定位算法

本文提出了一种名为 NetRCA 的算法来解决网络错误本源的准确定位问题，该算法从原始数据中提取有效的派生特征，采用多元时间序列相似性和标签传播来增加数据，最后采用合奏模型来提高性能，并在 ICASSP 2022 AIOps Challenge 数据集上进行实验验证。

Feb, 2022

基于 LLMs 的云事件管理的 X 终生成长学习

通过分析来自软件开发生命周期不同阶段的数据，可以改善大规模云服务的事件管理过程，并借助大型语言模型为开发人员提供自动化的推荐帮助，以更快地识别和减轻关键问题。

Feb, 2024

缺失结构知识的异常值根本原因分析

通过使用结构因果模型中的因果反事实的定量贡献分析，最近的工作对异常情况的根本原因分析进行了概念化。本文提出了简化、高效的根本原因分析方法，用于识别唯一的根本原因而非定量贡献分析的任务。对于未知因果有向无环图的应用场景，我们将异常得分最高的变量作为根本原因进行启发式验证。

Jun, 2024