基于贝叶斯神经网络的对抗鲁棒性认证
该研究提出了一种概率证明框架 PROVEN,用于验证神经网络在输入加噪时的鲁棒性,可证明分类器的 top-1 预测在受限的 Lp 范数扰动下不会发生改变,证书是基于现有的神经网络鲁棒性验证框架,该方法在 MNIST 和 CIFAR 神经网络模型的实验中取得了75%的提升。
Dec, 2018
引入了一种基于概率鲁棒性的贝叶斯神经网络(BNNs)的测量方法,定义为在某个有界集合内是否存在另一个点,使得BNN的预测在这两个点之间有差异的概率,并且可以用于量化对抗样本的存在概率。通过基于概率模型的统计验证技术,开发了一个框架,可以估计具有统计保证的BNN的概率鲁棒性,并在MNIST和GTSRB数据集的图像分类任务上提供了实验对比。结果可以在对抗环境中量化BNN预测的不确定性。
Mar, 2019
研究了在敌对输入扰动下,贝叶斯神经网络的概率安全性,使用非凸优化松弛技术计算贝叶斯神经网络概率安全性的下界,并且证明方法可用于对具有数百万参数的BNN进行概率安全性的认证。
Apr, 2020
通过贝叶斯学习的视角考虑深度神经网络的对抗训练,并提出了一种具有可证明保证的贝叶斯神经网络(BNN)的对抗训练的原则性框架。该方法可在MNIST、FashionMNIST和CIFAR-10上训练出可证明鲁棒性的模型,并用于不确定性校准。这是第一次直接训练可证明的BNN,可促进在安全关键应用中的部署。
Feb, 2021
本文介绍了BNN-DP,它是一种用于分析贝叶斯神经网络的对抗鲁棒性的高效算法框架。该算法使用动态规划算法来限定网络的预测范围,同时具备一般性和高效性。
Jun, 2023
贝叶斯神经网络并不具备固有的对抗攻击鲁棒性,而近期的研究表明对抗性样本导致神经网络在各种视觉和语言任务上失效。该研究通过研究三个任务的对抗鲁棒性来验证贝叶斯神经网络的鲁棒性,结果表明即使使用相对不复杂的攻击方法,使用最先进的近似推断方法和哈密頓蒙特卡洛方法训练的贝叶斯神经网络仍然容易受到对抗攻击,并揭示了之前声称贝叶斯神经网络具备固有对抗鲁棒性的研究中存在的概念和实验错误。
Apr, 2024