网络 AIOps 中部署深度学习模型的质量监测和评估
我们提出了 DAIC(DNN 评估和改进周期)方法,结合 “低成本” 在线伪预测和 “高成本” 离线抽样技术来估算和提高 DNN 系统的操作准确性,并将它们整合到 DNN 系统的迭代生命周期中。
Mar, 2023
本研究为了解决工业生产系统中机器学习模型的质量检验问题,提出了基于模块化策略的数据完整性及数据质量的质量保证方法,并以工业合作案例为支撑,还提出了未来研究的几个挑战。
Nov, 2022
介绍了实现基于云平台的人工智能运维 (AIOps) 的愿景、趋势、挑战和机遇以及多种运用案例和关键技术,特别关注了数据分析、问题分类和解决方案提出和技术应用等方面。着重挖掘了那些尚未被深入开发或对人工智能技术能够产生显著影响的领域。文章中还提供了该领域的趋势预测和关键投资机会。
Apr, 2023
本文介绍了从强健性的角度出发,将维护人工智能(AI)的重要性与汽车保养做类比,提出了一种 AI 模型检查框架以检测和减轻其强健性风险,并通过对车辆自主性的借鉴,定义了强健性自动化的级别,以实现 AI 维护的各项功能,从而实现在 AI 生命周期过程中,进行强健性评估、状态追踪、风险扫描、模型加固和监管,这是构建可持续和值得信赖的 AI 生态系统的重要里程碑。
Jan, 2023
人工智能物联网(AIoT,AI+IoT)领域是由智能基础设施的广泛使用和深度学习(DL)的显著成功推动的。本研究通过优化资源友好型的深度学习模型以及模型自适应系统调度,来改善 DL 模型的准确性和响应性,推动由单独级别设置的性能边界。此外,针对 AIoT 环境的动态特性,本文还探索了适用于不同级别的上下文感知控制器,实现自动跨级别适应,并提出了资源高效的 AIoT 系统的一些潜在方向。
Sep, 2023
通过利用开源工具,本文调查了在内部实施 AIOps 解决方案的可行性,介绍了一个成功部署的综合 AIOps 基础设施,并提供了构建其各个组件的不同选择的基础。对于寻求以现代 AIOps 方法内部管理软件维护流程的公司,我们的经验可以提供帮助。
Aug, 2023
AlerTiger 是一种深度学习的 MLOps 模型监控系统,通过检测模型输入特征和输出得分的异常来帮助公司内的 AI 团队监控其 AI 模型的健康状况,该方法已在 LinkedIn 的大多数生产 AI 模型中部署超过一年,并且在修复了几个模型问题后,带来了显著的业务指标收益。
Jun, 2023
在这项工作中,我们分析了两种不同的异常检测模型维护技术的模型更新频率,即盲目模型重训练和知情模型重训练。此外,我们还研究了通过对所有可用数据(全历史方法)或仅对最新数据(滑动窗口方法)进行重新训练来更新模型的效果,并且调查了一个数据变化监控工具能否确定何时需要通过重新训练更新异常检测模型。
Nov, 2023
LLMs 在 NLP 任务中表现出显著能力,并且在特定领域,特别是 AIOps 领域具有潜在的应用前景。然而,目前 LLMs 在 AIOps 任务中的性能还有待确定。本文介绍了一个为 LLMs 设计的综合任务导向的 AIOps 基准测试 OpsEval,首次评估了 LLMs 在各种能力水平下的关键场景中的表现。
Oct, 2023