通过随机平滑实现标签翻转攻击的认证强韧性
本研究发现了一种对具有证明鲁棒性的分类器构成威胁的数据污染攻击,并提出了一种新型双层优化数据污染攻击,可降低其整个目标类别的平均有保障半径(ACR),以及降低 30%以上的目标类别平均有保障半径(ACR)
Dec, 2020
通过一种新的框架,使用非高斯噪声和更广泛类型的攻击来实现在深度学习中的认证鲁棒性,并且比之前的方法提供更好的认证结果和新的随机平滑方法的视角。
Feb, 2020
我们研究了在成本敏感场景中学习对抗鲁棒分类器的问题,通过一个二进制成本矩阵编码不同分类的敌对转换的潜在危害。我们提出了一种能够为任意成本矩阵提供严密鲁棒性保证的改进版随机平滑认证方法,并使用针对不同数据子组的细粒度认证半径优化方案,提出了一种优化成本敏感鲁棒性的平滑分类器训练算法。我们在图像基准测试和现实世界医学数据集上的大量实验证明了我们方法在实现显著改善认证成本敏感鲁棒性性能的同时,对整体准确性的影响可以忽略不计。
Oct, 2023
本研究提出了一种针对补丁攻击的可验证防御机制,通过将可执行文件划分为非重叠的块,并采用多数投票的方式计算最终预测结果,从而最小化注入内容的影响。此外,引入了预处理步骤,将部分和标头的大小固定为块大小的倍数,从而确保恶意内容仅存在于整数个块中,同时保证对内容插入攻击具有认证的鲁棒性保证。经过广泛的消融研究,结果表明我们的方法在强攻击下展现出无与伦比的鲁棒性,优于文献中基于随机平滑的防御方法。
May, 2024
通过在低维投影空间中执行随机平滑,我们能够表征在高维输入空间中的平滑复合分类器的认证区域并证明其体积的可行下界。我们在 CIFAR-10 和 SVHN 上进行了实验证明分类器在没有初始投影时容易受到正常与数据流形法线相交的扰动,并且这些扰动被我们的方法的认证区域捕捉到。我们将我们认证区域的体积与各种基准进行比较,并证明我们的方法在数量级上优于现有技术。
Sep, 2023
通过随机平滑来证明分类器决策对于对抗性噪声不变,同时对噪声稳健性的保证受到多种因素的影响,例如平滑度量之间的差异和拟合威胁模型的选择。此外,该研究证明随着 p 的增加,随机平滑受到了维度诅咒的影响。
Jun, 2020
本文考虑攻击者是否可以只利用制造机器学习模型所依赖的随机性来破坏模型的安全性, 发现攻击者能够利用 Randomised Smoothing,一种用于提高模型抵抗对抗性攻击和量化不确定性的方法,背后基于对高斯噪声采样,来进行欺骗性认证,而且攻击只需要更改极小的随机数。因此,作者提出更新 NIST 的随机数测试准则,以使其更适用于安全和关键性的机器学习应用。
Jun, 2023
研究了如何在多个角度上面对数据污染攻击实现强大的鲁棒性保证和提供可靠的预测,同时提供算法计算文本类问题的区间,并针对线性分离器提供了真正的多项式时间算法。
Mar, 2022