评估用于深度神经网络的测试选择方法的稳健性

Jul, 2023

评估用于深度神经网络的测试选择方法的稳健性

Evaluating the Robustness of Test Selection Methods for Deep Neural Networks

Qiang Hu, Yuejun Guo, Xiaofei Xie, Maxime Cordy, Wei Ma...

TL;DR通过探索测试选择方法的失败情况和弊端，本文证实了这些方法在故障检测和性能估计方面存在可靠性问题，并提出了相应的解决方案。

Abstract

testing deep learning-based systems is crucial but challenging due to the required time and labor for labeling collected raw data. To alleviate the labeling effort, multiple →

testing deep learning-based systems test selection methods pitfalls reliability

发现论文，激发创造

深度学习分类器性能的综合评估揭示出令人惊讶的缺乏稳健性

可靠的评估方法是发展稳健可靠的机器学习模型的必要第一步，本文提出使用广泛类型的数据进行基准测试以评估分类器性能，并发现目前的深度神经网络在某些数据类型上容易犯错，因此需要更全面的测试方法以开发更稳健的机器学习方法。

Aug, 2023

深度神经网络选择性分类基准测试

通过对包含图像和表格数据的多样化数据集进行实证评估，该研究对 18 种基线模型进行基准测试，比较了它们在选择错误率、实证覆盖率、被拒绝实例类别分布以及在分布外实例上的性能等多个方面的表现，结果显示没有一个明确的最佳方法，最好的方法取决于用户的目标。

Jan, 2024

深度学习的测试改进

对神经网络的测试方法进行研究，提出了一种覆盖所有逻辑的覆盖率准则，并探讨了改进方法和需要快速、可扩展、通用的端到端测试方法的必要性。

Feb, 2019

基于神经元敏感性指导的深度学习测试用例选择

通过选择有价值的测试用例来降低标记时间，NSS 可以评估测试用例触发故障的概率和模型改进能力，并且在与基线方法比较时取得了较高的故障检测率。

Jul, 2023

深度神经网络的选择性分类

本文提出了一种构造选择分类器的方法，可在风险可控的情况下使用深度神经网络进行分类，解决了在深度神经网络中使用拒绝选项技术的问题，有效提高了分类器性能，成功实现了在 ImageNet 上顶部 5 项分类的 2% 错误率，并且测试覆盖率达到近 60%，为深度神经网络在关键应用中的应用提供了可能性。

May, 2017

DeepSample：基于 DNN 的操作准确性评估测试

通过概率抽样，研究了五种新的基于抽样的测试技术以及其他三种先进技术，以实现对深度神经网络在运行中准确度的忠实和高置信度估计，从而降低成本。

Mar, 2024

语言模型数据选择调查

该论文综述了大型语言模型、数据选择方法、经验证据、大规模数据选择研究和未来研究方向的相关领域，旨在为新老研究人员提供入门点，加速数据选择领域的进展。

Feb, 2024

深度神经网络的覆盖率与鲁棒性之间存在有限的相关性

通过实证研究 100 个 DNN 模型和 25 种指标，发现 DNN 的测试覆盖率与鲁棒性之间的相关性有限，即提高测试覆盖率并不能帮助提高鲁棒性。这个研究提出的数据集和实现也可以作为测试 DNN 的基准。

Nov, 2019

深度神经网络测试

提出了 4 种新的测试标准，为结构性特征和语义定制的深度神经网络，并通过对当前最先进的人工神经网络数据集进行实验来验证其有效性，以平衡测试用例生成的计算成本和发现缺陷的能力，同时在代理中使用对抗性例子。

Mar, 2018

野外细粒度图像分类

本文从层次知识入手，进行细粒度分类实验，验证模型在此类型下的稳健性，并通过其他方法解释和评估模型的错误分类行为。

Mar, 2023