医学图像分类中的鲁棒性压力测试

Aug, 2023

医学图像分类中的鲁棒性压力测试

Robustness Stress Testing in Medical Image Classification

Mobarakol Islam, Zeju Li, Ben Glocker

TL;DR通过深度神经网络对基于图像的疾病检测进行研究并进行临床验证，通过应力测试评估模型的稳健性和亚组性能差异，发现某些模型能够产生更稳健和公正的性能，并且预训练特征对下游稳健性起重要作用，强调应力测试在图像疾病检测模型的临床验证中应成为标准实践。

Abstract

deep neural networks have shown impressive performance for image-based disease detection. Performance is commonly evaluated through clinical validation on independent test sets to demonstrate clinically acceptable accuracy. Reporting good performance metrics on test sets, however, is n

deep neural networks image-based disease detection model robustness stress testing clinical validation

发现论文，激发创造

对 CT 图像退化进行的黑盒模型鲁棒性测试：基于测试时增强的方法

通过模型架构和数据预处理对多个常用分割和目标检测方法在模拟 CT 成像伪影和退化情况下的鲁棒性进行了测试，并考虑了通过模拟扫描仪老化或成像协议变化引起的图像质量的未来变化对深度学习模型的临床应用的可持续性的影响。

Jun, 2024

深度神经网络对数字病理学中常见损伤的健壮性基准测试

本文为评估深度神经网络在受损病理图像上的表现建立了易于使用的基准，发现了多种深度神经网络模型存在显著的精度下降和不可靠的置信度评估，并提出了一种用于将验证集替换为该基准集的新方法。

Jun, 2022

基于扩散模型的测试时间图像适应性用于鲁棒皮肤病变分类

我们提出了一种测试时间图像适应方法，通过同时更新和预测测试图像来提高模型在测试数据上的准确性，通过扩散模型将目标测试图像反投影到源域，设计结构指导模块通过低通滤波添加细化操作，用于正则化扩散以保留结构信息，并引入自整合方案自动调整对适应和未适应输入的依赖关系，增强适应鲁棒性。在我们构建的 ISIC2019-C 和 Dermnet-C 损坏鲁棒性评估基准上进行的大量实验表明，我们的方法在各种损坏、体系结构和数据区域上使分类器更加鲁棒。我们的数据集和代码将在 https://github.com/minghu0830/Skin-TTA_Diffusion 上提供。

May, 2024

图像识别中神经网络稳健性评估综述

近年来，对神经网络的稳健性评估引起了极大关注，深度学习的稳健性问题特别突出，研究人员致力于在图像识别任务中评估稳健性，在此综述中，我们对神经网络评估中敌对稳健性和扰动稳健性进行了详细研究，分析当前研究和标准，提供了图像识别中稳健性评估的广泛概述，分析了概念、度量标准和评估方法，研究了用于度量图像扰动程度的扰动度量和范围表示，以及特定于分类模型稳健性条件的稳健度量，还讨论了现有方法的优势和局限性，并提供了一些未来研究的潜在方向。

Apr, 2024

野外细粒度图像分类

本文从层次知识入手，进行细粒度分类实验，验证模型在此类型下的稳健性，并通过其他方法解释和评估模型的错误分类行为。

Mar, 2023

LANCE: 通过生成语言引导的对抗性图像进行视觉模型的压力测试

提出一种用于自动化模型应力测试的算法 —— 生成基于语言引导的反事实测试图像（LANCE）。利用大型语言模型和基于文本的图像编辑的最新进展，我们可以增加 IID 测试集的多样性和挑战性，而不会改变模型权重。我们基于生成的数据对一系列不同的预先训练模型的性能进行了基准测试，并观察到了显著且一致的性能下降。我们进一步分析了不同类型编辑的模型敏感性，并展示了它在揭示 ImageNet 中以前未知的类别级别模型偏差方面的适用性。

May, 2023

RadEdit: 通过扩散图像编辑对生物医学视觉模型进行压力测试

使用生成图像编辑来模拟数据集变化并诊断生物医学视觉模型的故障模式，无需额外的数据收集即可评估模型的鲁棒性。

Dec, 2023

一种差分测试框架用于评估图像识别模型的鲁棒性

本文提出了一种差分测试框架，该框架可对多种计算环境参数进行深度学习模型变量生成、执行、差分分析和测试，对三种热门图像识别模型使用 ImageNet 数据集进行鲁棒性分析，评估了更改深度学习框架、编译器优化和硬件设备的影响。

Jun, 2023

医学图像分类中的故障检测：现实检验和基准测试

本文研究了自动图像分类中的故障检测，通过对 6 个医学影像数据集的测试发现，现有的置信度评分方法无法准确检测分类模型的测试失败，建议今后加强研究，提高故障检测的准确性。

May, 2022

探索神经模型分类鲁棒性的精确观察

深度学习和鲁棒性在安全关键应用中的测评方法以及概率鲁棒性的权衡和使用条件进行了比较分析，提出了一种基于假设检验的直观实用测量标准，并将其整合到 TorchAttacks 库中，为对模型鲁棒性的理解做出了贡献。

Apr, 2024