TABOR: 人工智能系统中检查和恢复特洛伊木马后门的高精度方法
本文提出了一种基于预测置信度边界的黑盒防御方法 TrojDef,旨在识别和过滤特洛伊输入,并通过数学分析表明其在防御特洛伊攻击方面优于现有防御方法。
Sep, 2022
本研究论文介绍了一种新的多目标后门攻击,使用非后门模型作为教师模型解决最小最大优化问题提升攻击模型的性能,不能有效防御后门模型的特定输出的防御机制准确性将降至 0%。
Mar, 2022
这篇论文揭示和分析了后门攻击的一个重要特性:成功攻击会导致后门触发实例的内部层激活分布发生改变,与干净实例的分布不同。基于这一观察,作者提出了一种高效和有效的方法,通过使用逆向工程的触发器来纠正分布变化,从而实现后期训练的后门缓解。该方法不会改变 DNN 的任何可训练参数,但与需要大量 DNN 参数调整的现有方法相比,其缓解性能普遍更好。它还能有效检测带有触发器的测试实例,可以帮助及时发现恶意攻击者对后门进行利用。
Aug, 2023
本研究提出了一种具有五种特征的新型深度特征空间特洛伊攻击方法,包括有效性、隐秘性、可控性、鲁棒性和依赖于深度特征,在 9 个图像分类器上进行了广泛实验,并证明了该攻击可以规避最先进的防御措施。
Dec, 2020
这篇论文介绍了一种新的后门检测方法,它使用了两种张量分解方法应用于网络激活,相对于现有的检测方法具有多种优势,包括能够同时分析多个模型,适用于各种网络架构,对于改变网络行为的触发器不做任何假设,并且计算效率高。在 MNIST 手写数字数据集、CIFAR-10 数据集以及 NIST 的 TrojAI 比赛中的两个难数据集上,我们提供了检测流程的详细描述和结果。这些结果表明,相对于当前最先进的方法,我们的方法更准确、更高效地检测到了植入后门的网络。
Jan, 2024
本文提出了一种名为 FreeEagle 的数据免费后门检测方法,可以有效检测深度神经网络上的复杂后门攻击,而不需要任何干净样本或包含触发器的样本,并在不同数据集和模型结构上表现良好。
Feb, 2023
通过直接操纵注意力模式,我们提出了一种新颖的特洛伊注意力损失(TAL),以增强特洛伊行为,并提高攻击成功率和污染率,不仅适用于传统的脏标签攻击,还适用于更具挑战性的干净标签攻击。
Oct, 2023
本文提出一种全新的硬件加速器中的后门攻击方式,并设计了一个可配置的硬件木马,其中搭载了一个最小化的后门,使得攻击者只需要对少量参数进行更改就可以对深度学习模型做出改变,从而在保证运行效率的同时完全避开了目前防御机制。通过将木马植入 Vitis AI DPU 进行实验,作者成功 ic 证明了这种攻击的可行性与危险性,同时指出了目前硬件加速器中的深度学习模型存在的漏洞和安全问题,为以后的研究和应用提供了重要参考。
Apr, 2023
本研究提出了一种基于多臂赌博策略的 K-Arm 优化方法来检测深度学习系统中的后门攻击,并成功在超过 4000 个模型上取得了领先的性能。
Feb, 2021