高效可行生物合理的对抗训练
贝叶斯神经网络并不具备固有的对抗攻击鲁棒性,而近期的研究表明对抗性样本导致神经网络在各种视觉和语言任务上失效。该研究通过研究三个任务的对抗鲁棒性来验证贝叶斯神经网络的鲁棒性,结果表明即使使用相对不复杂的攻击方法,使用最先进的近似推断方法和哈密頓蒙特卡洛方法训练的贝叶斯神经网络仍然容易受到对抗攻击,并揭示了之前声称贝叶斯神经网络具备固有对抗鲁棒性的研究中存在的概念和实验错误。
Apr, 2024
本篇论文提出了一种名为 Adversarial Noise Propagation 的训练算法,将噪声注入隐藏层以提高深度模型的鲁棒性,并证明不同的隐藏层对模型鲁棒性和整洁的准确性有不同的贡献。该算法可有效地与其他对抗性训练方法相结合,进一步提高模型的鲁棒性。在 MNIST、CIFAR-10、CIFAR-10-C、CIFAR-10-P 和 ImageNet 上的广泛实验表明,ANP 实现了深度模型对对抗性和受损数据均具有强大的鲁棒性,并明显优于各种对抗性防御方法。
Sep, 2019
本文探讨了神经网络对分布偏移的敏感性问题解决方案中的对抗训练,以及了解到神经网络与人类理解不同的处理方式,更进一步地研究对抗训练对于神经网络偏向形状的影响并给出可能的解释,从频率角度分析了其效果。
Mar, 2023
本文提出了新的 SNN 训练方法 S-IBP 和 S-CROWN,并在不同数据集和模型结构中证明了其有效性,最大攻击错误率下降 37.7%,原始准确率下降 3.7%,这是关于 SNN 训练的首次分析。
Apr, 2022
使用对抗性例子的神经排序模型(NRMs)在信息检索(IR)中取得了巨大的成功,但是可以通过添加不可察觉的扰动来操纵它们的预测结果。本研究通过将对抗性例子融入训练数据,建立了关于 NRMs 中效果和鲁棒性的权衡的理论保证,并设计了一种新的具有扰动不变性的对抗训练(PIAT)方法,以实现更好的效果和鲁棒性的权衡。实验结果表明,PITA 在多个排序模型上相对于现有的对抗防御方法具有优越性。
Dec, 2023
通过有限的人类对抗样本生成更有用的对抗样本,提高模型鲁棒性,对抗训练框架在 ANLI 和仇恨言论检测数据集中展示了其优势,同时训练合成对抗样本提高了模型对未来轮次的鲁棒性。
Oct, 2023
本文旨在分析大数据下拟贝叶斯神经网络 (Bayesian Neural Networks) 对抗性攻击 (Adversarial Attack) 的几何特征,证明当数据分布存在退化时,对抗性攻击的易感性增加,并证明拟贝叶斯神经网络后验概率分布的期望梯度为零,因此在 MNIST、Fashion MNIST 和半月形数据集上,拟贝叶斯神经网络可展现出对于基于梯度和基于无梯度攻击的同时鲁棒性和高准确率。
Jul, 2022