基于第一原理的架构神经后门

Feb, 2024

Architectural Neural Backdoors from First Principles

Harry Langford, Ilia Shumailov, Yiren Zhao, Robert Mullins, Nicolas Papernot

TL;DR本研究提出了一种检测神经网络架构中的后门威胁的方法，并针对性地构建了一个可用于无人监督下攻击神经网络架构的任意触发器检测器，对常见的模型定义中的可疑组件进行后门检测困难性的用户研究发现，ML 开发者在 37% 的情况下只能识别常见模型定义中的后门，而令人惊讶的是他们在 33% 的情况下更喜欢带后门的模型，最后讨论了对抗神经网络架构后门的防御策略，强调了保障机器学习系统完整性所需的强大而全面的防御措施。

Abstract

While previous research backdoored neural networks by changing their parameters, recent work uncovered a more insidious threat: backdoors embedded within the definition of the network's →

backdoors neural networks architecture trigger detector defenses

发现论文，激发创造

深度学习和语言模型中注入无法检测到的后门

利用密码学技术，我们研究了机器学习模型中潜在的不可检测的后门问题，探索了外部专家公司设计模型中的潜在威胁，并引入了隐写功能来扩展神经网络后门攻击到语言模型中。

Jun, 2024

神经网络中的可扩展后门检测

该论文提出了一种基于触发器反向工程的方法来检测深度学习模型的后门攻击，该方法在实验中表现卓越，能完美地区分被套件攻击的模型和纯模型。

Jun, 2020

源代码神经模型中的后门

本文介绍了如何在源代码任务中注入后门 (backdoors)，并证明了如何使用鲁棒统计学算法来检测恶意数据。

Jun, 2020

深度学习后门

研究表明：恶意后门注入是指将恶意行为隐藏在深度神经网络中，在输入数据不包含恶意触发器时行为正常，但含有特定触发器时会调用事先定义好的恶意行为，触发器可以采用不同形式，这可以通过替换或扰动一组图像像素来对原始图像应用滤镜进行操作。

Jul, 2020

输入空间到特征表示的无感后门攻击

本文提出了一种新颖的隐形后门攻击方法，该方法通过将触发器模式视为一种特殊噪声并以伯努利分布生成参数，从而在不影响正常输入的情况下利用训练集合并夹杂恶意信息，并考虑对多种最新防御措施的效果验证。

May, 2022

物理世界中的后门攻击

本文分析了后门攻击的特点，提出当测试图像中的触发器与训练中使用的不一致时，该攻击模式会变得更加脆弱，并讨论了如何缓解这种漏洞，以期启发更多针对后门属性的研究，从而更好地设计先进的后门攻击和防御方法。

Apr, 2021

目标检测的非定向后门攻击

本研究发现在使用第三方资源训练深度神经网络时容易出现后门威胁，尤其对目标检测等关键应用程序造成威胁。通过无目标特点的简单而有效的毒药后门攻击，我们成功地将后门嵌入目标模型，这可以使模型无法检测到任何与我们的触发模式带有标记的物体。我们在基准数据集上进行了广泛的实验，表明这种方法在数字和现实世界的应用都非常有效，并且对潜在防御手段具有抵御力。

Nov, 2022

重新思考后门攻击的触发条件

该论文研究了针对深度神经网络的后门攻击，并提出了通过改变触发器来防御后门攻击的方法。

Apr, 2020

通过激活聚类检测深度神经网络的后门攻击

本文提出了一种新的神经网络后门检测和修复方法，经过广泛的实验结果证明了其对文本和图像分类的有效性。该方法是针对机器学习训练数据可能不可信，恶意攻击者可能通过植入精心制作的样本来攻击系统的现实情况，是首个不需要可验证和可信数据集即可检测和修复植入后门的数据的方法。

Nov, 2018

无触发后门攻击对抗深度神经网络

本文中提出了基于随机失活技术的无需触发器的深度神经网络后门攻击方法，该方法在保持攻击成功率的前提下，对模型的实用性损失十分微小。

Oct, 2020