May, 2024

在对抗性攻击下实现不确定性校准的认证

TL;DR神经分类器对扰动敏感,证书方法提供对其预测的扰动不敏感性的可证明保证,而模型的置信度在安全关键应用中尤为重要。我们证明了攻击可以严重影响置信度,并提出了对置信度的最坏情况下的证书校准作为对抗性扰动下的置信度的界限。最后,我们提出了新的校准攻击,并展示了通过对抗性校准训练如何改善模型的校准性能。