基于变异的深度神经网络故障定位

Sep, 2023

基于变异的深度神经网络故障定位

Mutation-based Fault Localization of Deep Neural Networks

Ali Ghanbari, Deepak-George Thomas, Muhammad Arbab Arshad, Hridesh Rajan

TL;DR深度神经网络的错误定位工具 deepmufl 在广泛的 DNN 模型中具有较好的有效性，并且可以在一半的错误定位时间内定位到高达 53/109 的错误位置，相比于静态和动态 DNN 错误定位系统具有更优的性能。

Abstract

deep neural networks (DNNs) are susceptible to bugs, just like other types of software systems. A significant uptick in using DNN, and its applications in wide-ranging areas, including safety-critical systems, wa

deep neural networks bugs dnn fault localization deepmufl fault localization time

发现论文，激发创造

深度变异：深度学习系统的变异测试

本研究提出了一种专为深度学习系统设计的突变测试框架，通过注入故障来度量测试数据的质量，并在 MNIST 和 CIFAR-10 数据集上验证了其有效性。

May, 2018

通过基于变异的置信度平滑增强大型语言模型的故障检测

现有的故障检测方法在大型语言模型上表现不佳，因此我们提出了一种名为 MuCS 的基于提示变异的预测置信度平滑方法，该方法能显著提升现有方法在测试覆盖率上的改进达到 97.64%。

Apr, 2024

零开销的故障感知设计和训练以提高 DNN 的可靠性

本文提出一种针对深度神经网络在训练和模型设计时提高其可靠性的解决方案，旨在解决硬件故障导致对模型预测出现错误等问题。在研究中通过 DNN 重新设计、重新训练等方式，提出三种零附加成本的解决方案，可以在一定程度上提高 DNNs 对于瞬态故障的可靠性，并通过广泛的消融研究量化了每种硬化组件的性能提升。

May, 2022

深度神经网络的特征图测试

在这项研究中，我们提出了 DeepFeature 用于从特征图层面测试深度神经网络。通过大量实验证明：(1) DeepFeature 是检测模型易受攻击特征图的强大工具；(2) DeepFeature 的测试用例选择具有高的错误检测率，能够检测更多类型的错误（与基于覆盖率引导的选择技术相比，错误检测率提高了 49.32%）；(3) DeepFeature 的模糊测试技术也优于当前的模糊测试技术，并且更高效地生成有价值的测试用例。

Jul, 2023

机器学习数据适用性和性能测试的故障注入测试框架

创建弹性机器学习系统对于确保生产就绪的机器学习系统并顺利获取用户信任已成为必要。输入数据和模型的质量对数据敏感系统的端到端测试成功具有高度影响。然而，与模型测试相比，输入数据的测试方法缺乏系统性且较少。为了填补这一空白，本文提出了一种基于故障注入技术的输入数据故障注入测试框架（FIUL-Data），该框架测试机器学习模型对多种故意引发的数据故障的弹性。数据变异器探索机器学习系统的脆弱性，针对不同故障注入效果。提出的框架基于三个主要想法设计：变异器不是随机的；在某个时刻应用一个数据变异器；事先优化选定的机器学习模型。本文使用来自分析化学的数据进行了 FIUL-Data 框架的实证评估，包括反义寡核苷酸保留时间测量。经验评估分为两个步骤进行，首先分析选定机器学习模型对数据变异的响应，然后对比彼此。结果显示 FIUL-Data 框架允许评估机器学习模型的弹性。在大多数实验情况下，较大的训练数据集上，机器学习模型表现出更高的弹性，在较小的训练集中梯度提升方法优于支持向量回归。总体而言，均方误差指标在评估模型弹性方面具有较高的敏感性。

Sep, 2023

面向无需测试的故障定位的大型语言模型

采用大型语言模型进行故障定位，通过微调小批量双向适配器层，无需测试覆盖信息定位出有问题的代码行，追踪性能与语言模型的规模相关。

Oct, 2023

深度学习系统中实际故障分类

本文介绍了深度学习系统中的故障分类法，基于从 GitHub、Stack Overflow 和 20 个研究人员和从业者采访中获得的 1059 个人工分析的文献，以及采用 TensorFlow、Keras 和 PyTorch 等流行深度学习框架的项目。通过调查证实，几乎所有故障类型（13/15）至少被 50％的调查参与者体验过。

Oct, 2019

测试前向神经网络训练程序

该论文提出了一种名为 TheDeepChecker 的端到端基于属性的调试方法，以检测深度神经网络训练程序中的编码错误和系统失配，并表明其在检测准确性和深度学习故障覆盖面方面优于 Amazon SageMaker Debugger（SMD）的离线规则验证。

Apr, 2022

DLFuzz: 深度学习系统差分模糊化测试

本文提出了 DLFuzz, 第一个可引导 DL 系统暴露错误行为的差分模糊测试框架，相比于 DeepXplore 具有更高的神经元覆盖率、更高效的寻找故障输入、更小的干扰等优势。

Aug, 2018

深度神经网络中局部不稳定性的测量和缓解

通过研究模型在训练过程中的随机性，我们发现在自然语言理解任务中，模型的预测结果的不稳定性会对一部分查询产生影响，提出了一种衡量稳定性现象的方法 —— 标签熵，我们研究了数据不可知的正则化方法和新的数据中心方法，发现它已在计算成本的分数中取得了 90% 的性能优势以及金标准的表现。

May, 2023