评估用于深度神经网络的测试选择方法的稳健性
可靠的评估方法是发展稳健可靠的机器学习模型的必要第一步,本文提出使用广泛类型的数据进行基准测试以评估分类器性能,并发现目前的深度神经网络在某些数据类型上容易犯错,因此需要更全面的测试方法以开发更稳健的机器学习方法。
Aug, 2023
通过对包含图像和表格数据的多样化数据集进行实证评估,该研究对 18 种基线模型进行基准测试,比较了它们在选择错误率、实证覆盖率、被拒绝实例类别分布以及在分布外实例上的性能等多个方面的表现,结果显示没有一个明确的最佳方法,最好的方法取决于用户的目标。
Jan, 2024
通过选择有价值的测试用例来降低标记时间,NSS 可以评估测试用例触发故障的概率和模型改进能力,并且在与基线方法比较时取得了较高的故障检测率。
Jul, 2023
本文提出了一种构造选择分类器的方法,可在风险可控的情况下使用深度神经网络进行分类,解决了在深度神经网络中使用拒绝选项技术的问题,有效提高了分类器性能,成功实现了在 ImageNet 上顶部 5 项分类的 2% 错误率,并且测试覆盖率达到近 60%,为深度神经网络在关键应用中的应用提供了可能性。
May, 2017
通过概率抽样,研究了五种新的基于抽样的测试技术以及其他三种先进技术,以实现对深度神经网络在运行中准确度的忠实和高置信度估计,从而降低成本。
Mar, 2024
通过实证研究 100 个 DNN 模型和 25 种指标,发现 DNN 的测试覆盖率与鲁棒性之间的相关性有限,即提高测试覆盖率并不能帮助提高鲁棒性。这个研究提出的数据集和实现也可以作为测试 DNN 的基准。
Nov, 2019
提出了 4 种新的测试标准,为结构性特征和语义定制的深度神经网络,并通过对当前最先进的人工神经网络数据集进行实验来验证其有效性,以平衡测试用例生成的计算成本和发现缺陷的能力,同时在代理中使用对抗性例子。
Mar, 2018