Mar, 2024

分类稳健性与解释稳健性真的高度相关吗?通过输入损失函数的分析

TL;DR该研究论文探讨了深度学习稳健性的关键领域,挑战了图像分类系统中分类稳健性和解释稳健性之间存在固有相关性的传统观念。通过一种利用聚类的新颖评估方法,有效评估解释稳健性,我们证明增强解释稳健性并不一定会使输入损失函数的梯度相对于解释损失变得更平坦,与更平坦的损失函数梯度有较好的分类稳健性的理论相反。为了对这一矛盾进行深入研究,我们提出了一种革命性的训练方法,旨在根据解释损失来调整损失函数的梯度。通过这种新的训练方法,我们发现虽然这种调整可以影响解释的稳健性,但对分类的稳健性没有影响。这些发现不仅挑战了两种稳健性之间的强相关假设,还为理解损失函数梯度和解释损失之间的关系开辟了新的途径。