深度变异：深度学习系统的变异测试

May, 2018

深度变异：深度学习系统的变异测试

DeepMutation: Mutation Testing of Deep Learning Systems

Lei Ma, Fuyuan Zhang, Jiyuan Sun, Minhui Xue, Bo Li...

TL;DR本研究提出了一种专为深度学习系统设计的突变测试框架，通过注入故障来度量测试数据的质量，并在 MNIST 和 CIFAR-10 数据集上验证了其有效性。

Abstract

deep learning (DL) defines a new data-driven programming paradigm where the internal system logic is largely shaped by the training data. The standard way of evaluating DL models is to examine their performance on a test dataset. The quality of the test dataset is of great importance t

deep learning mutation testing test data quality dl systems source-level mutation operators

发现论文，激发创造

基于变异的深度神经网络故障定位

深度神经网络的错误定位工具 deepmufl 在广泛的 DNN 模型中具有较好的有效性，并且可以在一半的错误定位时间内定位到高达 53/109 的错误位置，相比于静态和动态 DNN 错误定位系统具有更优的性能。

Sep, 2023

研究机器学习软件测试实践

我们进行了第一项细致入微的实证研究，以填补现有研究中对机器学习软件测试实践的知识空白，从而识别机器学习质量属性、测试策略以及它们在机器学习工作流中的实施。

Dec, 2023

DeepGauge: 深度学习系统的多粒度测试标准

该论文提出深度学习系统的多层次测试标准 DeepGauge，以应对其漏洞和不足，经过对多个数据集和攻击技术的分析得出结果，有望构建更加稳健的深度学习系统。

Mar, 2018

深度学习库测试方法概述

深度学习技术在各个领域极大地方便了人们的生活，但深度学习库作为这些系统的支柱，同样会受到漏洞的威胁。本文提供了与深度学习库相关的测试研究概述，讨论了现有方法的优势、劣势，并为深度学习库的应用提供指导和参考，同时还总结了针对这些库的现有测试方法和工具，分析了其有效性和局限性，并探讨了深度学习库测试的挑战和未来的研究方向。

Apr, 2024

深度学习测试中重新思考多样性

本文讨论了深度学习系统在测试中存在的漏洞和不公平性问题，提出了使用 6 个度量标准进行有针对性的测试的方法，并以实验证明该方法比传统多样性方法更为有效。同时，指出了软件工程界和深度学习领域之间存在的差异，以期在未来拓宽两者的研究实践。

May, 2023

DLFuzz: 深度学习系统差分模糊化测试

本文提出了 DLFuzz, 第一个可引导 DL 系统暴露错误行为的差分模糊测试框架，相比于 DeepXplore 具有更高的神经元覆盖率、更高效的寻找故障输入、更小的干扰等优势。

Aug, 2018

机器学习数据适用性和性能测试的故障注入测试框架

创建弹性机器学习系统对于确保生产就绪的机器学习系统并顺利获取用户信任已成为必要。输入数据和模型的质量对数据敏感系统的端到端测试成功具有高度影响。然而，与模型测试相比，输入数据的测试方法缺乏系统性且较少。为了填补这一空白，本文提出了一种基于故障注入技术的输入数据故障注入测试框架（FIUL-Data），该框架测试机器学习模型对多种故意引发的数据故障的弹性。数据变异器探索机器学习系统的脆弱性，针对不同故障注入效果。提出的框架基于三个主要想法设计：变异器不是随机的；在某个时刻应用一个数据变异器；事先优化选定的机器学习模型。本文使用来自分析化学的数据进行了 FIUL-Data 框架的实证评估，包括反义寡核苷酸保留时间测量。经验评估分为两个步骤进行，首先分析选定机器学习模型对数据变异的响应，然后对比彼此。结果显示 FIUL-Data 框架允许评估机器学习模型的弹性。在大多数实验情况下，较大的训练数据集上，机器学习模型表现出更高的弹性，在较小的训练集中梯度提升方法优于支持向量回归。总体而言，均方误差指标在评估模型弹性方面具有较高的敏感性。

Sep, 2023

MutateNN: 硬件加速器上部署的图像识别模型的突变测试

本研究提出了 MutateNN 工具，支持深度学习图像识别模型在不同硬件加速设备上进行变异测试和分析，以便于开发者和研究者探索模型的稳健性。通过在不同设备上部署 21 种变异并观察其性能，研究者们发现有些变异和算术类型有关的还不够稳定。

Jun, 2023

通过模型变异测试实现语言模型后门样本检测

本研究提出了一种基于深度模型突变测试的新型防御方法，可以在 char-level，word-level，sentence-level 以及 style-level 水平上检测恶意后门样本，并在三个基准数据集和三个样式转换数据集上表现出优异的效果。

Jan, 2023

深度学习系统的组合测试

本文探讨了如何采用组合测试技术来测试深度学习系统，以提高其鲁棒性，从而及早发现漏洞。作者提出了一套 DL 系统覆盖度准则和 CT 覆盖度引导测试生成技术，并通过实验证明组合测试可以有效地降低测试空间并提高其缺陷检测能力。此外，还对深度学习系统的组合测试提出了一些未解之问和有趣的方向。

Jun, 2018