Sep, 2023

机器学习数据适用性和性能测试的故障注入测试框架

TL;DR创建弹性机器学习系统对于确保生产就绪的机器学习系统并顺利获取用户信任已成为必要。输入数据和模型的质量对数据敏感系统的端到端测试成功具有高度影响。然而,与模型测试相比,输入数据的测试方法缺乏系统性且较少。为了填补这一空白,本文提出了一种基于故障注入技术的输入数据故障注入测试框架(FIUL-Data),该框架测试机器学习模型对多种故意引发的数据故障的弹性。数据变异器探索机器学习系统的脆弱性,针对不同故障注入效果。提出的框架基于三个主要想法设计:变异器不是随机的;在某个时刻应用一个数据变异器;事先优化选定的机器学习模型。本文使用来自分析化学的数据进行了 FIUL-Data 框架的实证评估,包括反义寡核苷酸保留时间测量。经验评估分为两个步骤进行,首先分析选定机器学习模型对数据变异的响应,然后对比彼此。结果显示 FIUL-Data 框架允许评估机器学习模型的弹性。在大多数实验情况下,较大的训练数据集上,机器学习模型表现出更高的弹性,在较小的训练集中梯度提升方法优于支持向量回归。总体而言,均方误差指标在评估模型弹性方面具有较高的敏感性。