在对抗性攻击下实现不确定性校准的认证

May, 2024

在对抗性攻击下实现不确定性校准的认证

Towards Certification of Uncertainty Calibration under Adversarial Attacks

Cornelius Emde, Francesco Pinto, Thomas Lukasiewicz, Philip H.S. Torr, Adel Bibi

TL;DR神经分类器对扰动敏感，证书方法提供对其预测的扰动不敏感性的可证明保证，而模型的置信度在安全关键应用中尤为重要。我们证明了攻击可以严重影响置信度，并提出了对置信度的最坏情况下的证书校准作为对抗性扰动下的置信度的界限。最后，我们提出了新的校准攻击，并展示了通过对抗性校准训练如何改善模型的校准性能。

Abstract

Since neural classifiers are known to be sensitive to adversarial perturbations that alter their accuracy, \textit{certification methods} have been developed to provide provable guarantees on the insensitivity of

neural classifiers certification methods model calibration adversarial perturbations adversarial calibration training

发现论文，激发创造

校准攻击：一种面向校准的对抗攻击框架

我们引入了一种名为校准攻击的对抗攻击框架，该框架通过生成和组织攻击来使受害模型误校准而不改变其原始准确性，从而严重危及模型的可信性和基于其置信度分数的决策。我们鉴别了四种新颖的校准攻击形式：低置信度攻击、高置信度攻击、最大误校准攻击和随机置信度攻击，并在黑盒和白盒设置中对典型受害模型使用全面的数据集进行了测试，证明即使只有相对较少的查询次数，这些攻击也能造成显著的校准错误。我们进一步详细分析了校准攻击的不同方面，并研究了广泛使用的对抗防御和校准方法对这些攻击的有效性，从而激发我们设计出两种新的防御措施来对抗此类校准攻击。

Jan, 2024

CC-Cert: 一种概率方法来证明神经网络的普适鲁棒性

本文提出了一种基于 Chernoff-Cramer Bounds 的新型通用概率认证方法，可以用于对抗性攻击环境下的机器学习应用。实验结果支持了我们的理论发现，证明了我们的方法对于语义扰动具有防御能力。

Sep, 2021

使用凸松弛进行认证训练会影响鲁棒性能

本文介绍了在安全关键应用中，对抗攻击对部署最先进的分类器构成重大威胁；总体上，经验证的防御方法虽然具有鲁棒性保证，但是实践中的对抗训练比较受欢迎。我们系统性地比较了这两种鲁棒性训练方法在多个计算机视觉任务中的标准错误和鲁棒错误，结果表明，在大多数任务和威胁模型下，采用凸松弛的认证训练比采用对抗训练更容易带来标准错误和鲁棒错误。此外，我们还探讨了认证和对抗训练之间的错误差距如何依赖于威胁模型和数据分布，并且除了扰动预算外，我们还确定了扰动集的形状和数据分布的隐式边缘等重要因素。本文在合成和图像数据集上进行了大量消融实验，证明我们的观点。

Jun, 2023

朝着高准确度的概率鲁棒性认证

通过提出一种新的方法，同时追求高准确性和具有认证的概率鲁棒性，我们的实验显示该方法在多个模型和数据集上的认证率和准确性方面明显优于现有方法。

Sep, 2023

分类模型的校准评估

研究了概率分类器的不确定性表示和校准，提出了基于概率理论的校准评估框架并增加了新的评估和可视化工具。

Feb, 2019

通过与对抗鲁棒性的关系来提高校准

该论文研究神经网络的对抗强度和校准之间的联系，并提出了 Adversarial Robustness based Adaptive Label Smoothing (AR-AdaLS) 方法，以提高模型校准和鲁棒性。该方法可应用于单个模型和集成模型，可在数据偏移情况下实现更好的校准结果。

Jun, 2020

Field-aware Calibration：可靠概率预测的简单有效方法

本文提出了一种新的评估指标，称为 “field-level calibration error”，用于衡量决策者关注的敏感输入领域中预测偏差，提出了一种名为神经校准的后续校准方法，使用验证集中的领域感知信息进行校准，并通过实验证明其对常见度量（如负对数似然、布里尔分数和 AUC）以及所提出的 “field-level calibration error” 指标的校准性能得到了显著提高。

May, 2019

从不确定性到精确性：通过校准提升二元分类器性能

我们分析了各种校准度量对分数失真的敏感性，并引入了一种精确的度量标准，即本地校准分数，比较了校准方法，提倡使用局部回归，强调其作为有效校准工具和更平滑可视化的双重作用。我们在真实世界情景中应用这些发现，使用随机森林分类器和回归器预测信用违约，并在性能优化过程中同时测量校准度。

Feb, 2024

用快速对抗校准实现深度神经网络中值得信赖的预测

为了让实际应用的人工智能系统更加被广泛认知，模型的可信度至关重要。文章提出了一种新的训练策略，结合熵鼓励损失项和对抗校准损失项，以提高样本在领域世界偏移下的校准性和适应性。文章在不同的数据模式、数据集和网络架构上进行了全面的评估，结果显示该方法明显高于现有的最先进方法，应用于领域漂移下预测方面具有技术上的可信度。

Dec, 2020

深度学习中的校准度量

本文探讨了机器学习分类器中出现的过度置信和欠置信问题，介绍了衡量分类器置信度的度量标准 —— 准确率校准度，以及该度量标准不足的缺点；进而进行了一项全面的实证研究，并开源了一种度量方法的库。实证研究发现，不同的度量标准对于分类器校准度的优化与评价可能会带来截然不同的结论。

Apr, 2019