May, 2024

LogRCA: 分布式服务的基于日志的根因分析

TL;DR通过使用半监督学习方法处理稀有和未知错误,并设计了处理噪声数据的方法,我们提出了一种名为 LogRCA 的方法,用于识别以最小集合描述根本原因的日志行,其在大规模生产日志数据集上的评估结果表明,在检测候选根本原因的精确性和召回率方面,LogRCA 始终优于基于深度学习和统计分析的对比方法,并且我们还研究了部署的数据平衡方法的影响,结果显示它显著提高了对稀有故障的性能。