本文提出使用对抗训练来提高基于随机平滑的分类器的效果,并设计一种适应平滑分类器的攻击方法,通过大量实验,得出这种方法在 ImageNet 和 CIFAR-10 上的性能显著胜过所有现有的可证明的 L2 - 强健分类器,证明了这种方法是可靠的,且半监督学习和预训练能够进一步提高其效果。
Jun, 2019
通过一种新的框架,使用非高斯噪声和更广泛类型的攻击来实现在深度学习中的认证鲁棒性,并且比之前的方法提供更好的认证结果和新的随机平滑方法的视角。
Feb, 2020
研究了标签平滑作为改善监督深度学习模型对抗鲁棒性的手段,在多个数据集和模型上证明了标签平滑的普遍优越性以及提出了几种变化形式。
对随机平滑技术进行了改进以提高鲁棒性,包括引入新的训练方法和后处理方法,结果显示这些方法可以提高随机平滑分类器的鲁棒性性能和训练效率,并对基于模型集成的方法进行了理论分析。
Oct, 2023
本研究研究证明采用随机平滑技术可用于认证抵御后门攻击的鲁棒性,并探讨了现有方法的局限性,强调需要新的理论和方法来认证抵御后门攻击的鲁棒性。
本文针对强化学习中的深度神经网络,提出了一种能够直接认证总奖励且无需在每一时间步骤都保持鲁棒性的有效方法,其中使用了采样平滑和基于样条插值的鲁棒性证明。
Jun, 2021
通过在中间层的模型中添加随机噪声,我们提出了一种简单轻量级的防御方法,可以有效增强模型对黑盒攻击的鲁棒性,并且对准确率影响较小。
深度学习恶意软件检测器容易受到对抗性恶意软件样本的攻击,我们提出了一种受(去)随机化平滑启发的针对对抗性恶意软件样本的实用防御方案,通过选择相关的字节子集来降低恶意软件作者注入的对抗性内容的采样概率,而不像计算机视觉领域中一样使用高斯噪声来随机化输入。我们提出了两种确定用于分类的块位置的策略:(1)随机选择块的位置和(2)选择连续相邻的块。我们的研究结果显示,基于块的平滑分类器对使用最新的对抗性恶意软件逃避攻击生成的对抗性恶意软件示例表现出更高的韧性,明显优于非平滑分类器和基于随机化平滑的分类器。
Feb, 2024
论文介绍了如何通过随机光滑化技术来提高分类器对抗扰动的鲁棒性,使用该方法得到的 ImageNet 分类器在扰动范围小于 0.5 的情况下,具有 49%的认证准确率,并且该方法在获得更高的认证准确率方面比其他方法更具优势。
Feb, 2019
本研究提出了一种针对补丁攻击的可验证防御机制,通过将可执行文件划分为非重叠的块,并采用多数投票的方式计算最终预测结果,从而最小化注入内容的影响。此外,引入了预处理步骤,将部分和标头的大小固定为块大小的倍数,从而确保恶意内容仅存在于整数个块中,同时保证对内容插入攻击具有认证的鲁棒性保证。经过广泛的消融研究,结果表明我们的方法在强攻击下展现出无与伦比的鲁棒性,优于文献中基于随机平滑的防御方法。
May, 2024