Apr, 2024

大规模事故响应的异常检测

TL;DR我们提出了一种基于机器学习的异常检测产品 ——AI Detect and Respond (AIDR),它能够实时监测沃尔玛的业务和系统健康状况。在验证期间,该产品使用超过 3000 个模型为 25 个应用程序、平台和运营团队提供了预测,覆盖了 63% 的重大事件,并将平均检测时间 (MTTD) 缩短了 7 分钟以上。与以往的异常检测方法不同,我们的解决方案利用统计学、机器学习和深度学习模型,同时继续使用基于规则的静态阈值来整合领域特定知识。单变量和多变量机器学习模型通过分布式服务部署和维护,以实现可伸缩性和高可用性。AIDR 具有反馈循环,借助漂移检测算法和用户反馈来评估模型质量。它还提供自助入门功能和可定制性。与以前的方法相比,AIDR 在各个内部团队中都取得了成功,其检测时间更短,误报较少。在未来,我们的目标是扩大事故覆盖和预防范围,减少噪音,并与根本原因推荐 (RCR) 进一步整合,实现端到端的 AIDR 体验。