关于机器学习后门检测作为一种假设检验问题的 (不) 可行性

Feb, 2024

关于机器学习后门检测作为一种假设检验问题的 (不) 可行性

On the (In)feasibility of ML Backdoor Detection as an Hypothesis Testing Problem

Georg Pichler, Marco Romanelli, Divya Prakash Manivannan, Prashanth Krishnamurthy, Farshad Khorrami...

TL;DR我们引入了一个形式化的统计定义，用于分析机器学习系统中后门检测问题的可行性，为我们的定义的实用性和适用性提供了证据。我们的工作的主要贡献是后门检测的一个不可能性结果和一个可实现性结果。我们证明了一项无饭票定理，证明了通用（无敌手意识）的后门检测是不可能的，除非字母表很小。因此，我们认为后门检测方法需要明确或隐含地具有对敌手的意识。然而，我们的工作并不意味着后门检测在特定情况下无法工作，正如科学文献中成功的后门检测方法所证明的那样。此外，我们将我们的定义与确定近似正确（PAC）学习的超出分布检测问题联系起来。

Abstract

We introduce a formal statistical definition for the problem of backdoor detection in machine learning systems and use it to analyze the feasibility of such problems, providing evidence for the utility and applic

backdoor detection machine learning systems feasibility adversary-aware pac learnability

发现论文，激发创造

重新思考后门攻击

通过分析训练数据的结构信息，我们对反向门攻击问题提出了一种不同的方法，指出这些攻击在一般情况下是不可能被检测到的。基于此观察，我们重新审视了现有的反向门攻击防御措施并对其隐含的假设进行了表征。最后，基于假设条件，我们提出了一种新的原始方法来检测反向门攻击，并开发了一个具有理论保证且实用的检测算法。

Jul, 2023

在机器学习模型中种植不可检测的后门

本研究探讨了恶意学习者如何在其他人无法察觉的情况下，向分类器中植入不可检测的后门，进而影响其分类结果，该现象极大地阻碍了认证适应性和干扰性的理论发展。

Apr, 2022

具有有限信息和数据的黑盒检测后门攻击

该论文提出一种基于黑盒模型的反向工程优化算法，用于检测深度神经网络中嵌入的恶意后门攻击，并通过检测结果进行有效的可靠预测，实验表明其可以有效地应对多种后门攻击。

Mar, 2021

深度学习和语言模型中注入无法检测到的后门

利用密码学技术，我们研究了机器学习模型中潜在的不可检测的后门问题，探索了外部专家公司设计模型中的潜在威胁，并引入了隐写功能来扩展神经网络后门攻击到语言模型中。

Jun, 2024

网络入侵检测系统对抗性躲避攻击与防御的可行性评估

该文章回顾了许多现有的针对机器学习模型的对抗攻击，突出了一些尚未解决的挑战，一些特定领域的约束可能会增加制作对抗样本的难度，也强调了如何将这些理论应用到实践的挑战。

Mar, 2023

利用反向分布对贝叶斯神经网络进行后门攻击

本文提出了一种基于反向分布的新型后门攻击，能够成功地破坏贝叶斯神经网络的稳健性，并在多个基准数据集上证明了攻击成功率达到了 100%。

May, 2022

通过机器遗忘进行的后门攻击

近年来，由于深度学习研究和应用的快速发展，人工智能的安全问题变得越来越突出。在这项工作中，我们提出了一种基于机器反学习的黑盒后门攻击方法，通过精心设计的样本对训练集进行增强，然后利用取消学习请求来逐步激活隐藏的后门。我们还提出了两种方法来检测或减轻这种恶意消除学习请求，实验证明：我们的攻击可以成功植入后门到模型中，而分散处理增加了攻击的难度；我们的检测算法能够有效识别减轻样本，而分散处理降低了我们的检测算法的有效性。

Sep, 2023

神经网络中的可扩展后门检测

该论文提出了一种基于触发器反向工程的方法来检测深度学习模型的后门攻击，该方法在实验中表现卓越，能完美地区分被套件攻击的模型和纯模型。

Jun, 2020

关于在 SAT 中使用后门的加密攻击

本文提出一种新的 SAT 后门集类别，用于密码攻击中的猜测和确定攻击，通过使用 SAT 求解器识别最佳的后门变量集以及统计预估硬度，实验结果显示该方法较现有技术在反推攻击的硬度方面具有优势。

Mar, 2018

面向贡献者的防御对抗性后门攻击

提出了一个面向多个数据贡献者的普适性防御框架，该框架利用半监督集成和众包学习过滤对抗触发器生成的错误标签，以对抗严重的对图像分类的对抗后门攻击。

May, 2022