利用反向分布对贝叶斯神经网络进行后门攻击
本研究提出了一种针对深度神经网络的动态后门技术,该技术具有随机模式和位置,其生成的触发器降低了当前后门检测机制的有效性,可很好地规避当前防御后门攻击的最先进机制,并在 MNIST、CelebA 和 CIFAR-10 数据集上取得了几乎完美的攻击结果,极小化实用性损失。
Mar, 2020
该论文提出一种基于黑盒模型的反向工程优化算法,用于检测深度神经网络中嵌入的恶意后门攻击,并通过检测结果进行有效的可靠预测,实验表明其可以有效地应对多种后门攻击。
Mar, 2021
本文旨在分析大数据下拟贝叶斯神经网络 (Bayesian Neural Networks) 对抗性攻击 (Adversarial Attack) 的几何特征,证明当数据分布存在退化时,对抗性攻击的易感性增加,并证明拟贝叶斯神经网络后验概率分布的期望梯度为零,因此在 MNIST、Fashion MNIST 和半月形数据集上,拟贝叶斯神经网络可展现出对于基于梯度和基于无梯度攻击的同时鲁棒性和高准确率。
Jul, 2022
这篇论文揭示和分析了后门攻击的一个重要特性:成功攻击会导致后门触发实例的内部层激活分布发生改变,与干净实例的分布不同。基于这一观察,作者提出了一种高效和有效的方法,通过使用逆向工程的触发器来纠正分布变化,从而实现后期训练的后门缓解。该方法不会改变 DNN 的任何可训练参数,但与需要大量 DNN 参数调整的现有方法相比,其缓解性能普遍更好。它还能有效检测带有触发器的测试实例,可以帮助及时发现恶意攻击者对后门进行利用。
Aug, 2023
近年来,由于深度学习研究和应用的快速发展,人工智能的安全问题变得越来越突出。在这项工作中,我们提出了一种基于机器反学习的黑盒后门攻击方法,通过精心设计的样本对训练集进行增强,然后利用取消学习请求来逐步激活隐藏的后门。我们还提出了两种方法来检测或减轻这种恶意消除学习请求,实验证明:我们的攻击可以成功植入后门到模型中,而分散处理增加了攻击的难度;我们的检测算法能够有效识别减轻样本,而分散处理降低了我们的检测算法的有效性。
Sep, 2023
贝叶斯神经网络并不具备固有的对抗攻击鲁棒性,而近期的研究表明对抗性样本导致神经网络在各种视觉和语言任务上失效。该研究通过研究三个任务的对抗鲁棒性来验证贝叶斯神经网络的鲁棒性,结果表明即使使用相对不复杂的攻击方法,使用最先进的近似推断方法和哈密頓蒙特卡洛方法训练的贝叶斯神经网络仍然容易受到对抗攻击,并揭示了之前声称贝叶斯神经网络具备固有对抗鲁棒性的研究中存在的概念和实验错误。
Apr, 2024
本研究提出了通过随机平滑技术来确保深度神经网络对于各种威胁模型的健壮性,同时证明了所提出的健壮性训练过程的健壮性边界,并在 MNIST、CIFAR-10 和 ImageNette 数据集上进行了可靠性评估,该研究成果有助于更强大的机器学习模型的开发。
Mar, 2020
探索深度神经网络 (DNNs) 部署阶段和相应防御中基于数据污染的后门攻击,以及实现物理实用性的后门注入算法 —— 子网替换攻击 (SRA),结果表明该算法有效性与实用性,促进更多对 DNNs 在部署阶段脆弱性的关注。
Nov, 2021
本研究探讨了在能力限制内实施黑盒后门攻击的可能性,通过设计后门触发器,攻击者可以在没有参与训练过程或了解目标模型结构的情况下作为图像注释者或供应商从事此类攻击。实验结果表明,我们的方法在黑盒场景中实现了高攻击成功率,并逃过了最先进的后门防御。
Apr, 2023
该研究对针对深度神经网络的后门攻击进行了全面的调查,总结和分类现有的后门攻击和防御方法,并提供了分析基于攻击方法的中毒后门攻击的统一框架,并分析了后门攻击与相关领域(如敌对攻击和数据污染)的关系,同时总结了广泛采用的基准数据集。
Jul, 2020