机器学习数据集安全性：数据投毒、后门攻击和防御

Dec, 2020

机器学习数据集安全性：数据投毒、后门攻击和防御

Dataset Security for Machine Learning: Data Poisoning, Backdoor Attacks, and Defenses

Micah Goldblum, Dimitris Tsipras, Chulin Xie, Xinyun Chen, Avi Schwarzschild...

TL;DR介绍机器学习系统中数据集安全领域的各种潜在威胁及其防御方法，并提出解决这些问题的未解之谜。

Abstract

As machine learning systems grow in scale, so do their training data requirements, forcing practitioners to automate and outsource the curation of →

machine learning training data data curation dataset vulnerabilities data security

发现论文，激发创造

野外模式再載：機器學習對抗訓練數據毒化安全綜述

本文对过去 15 年来关于机器学习中中毒攻击和防御的 100 多篇论文进行了全面的系统化概括和批判性点评，主要关注于视觉应用程序，并讨论了当前的限制和开放性的研究问题。

May, 2022

人工智能中的毒化攻击与防御：一项调研

本文综述了机器学习分类器训练中的数据污染攻击的安全漏洞，并介绍了几种可行的检测和缓解机制，比较了不同方法的性能以及固有属性，如可靠性、隐私和可解释性。同时，提供了未来研究方向的参考。

Feb, 2022

数据毒化有多具有毒性？针对后门和数据毒化攻击的统一基准

本文研究了数据污染和后门攻击对训练数据的影响，发现数据污染是常见的安全威胁之一，但目前还不清楚这些攻击方法的危害程度，我们通过开发标准基准来促进未来工作的公平比较。

Jun, 2020

图像分类器后门数据污染攻击的系统评估

本文系统评估了包括触发器模式、回归技术、模型体系结构及数据集在内的不同实验条件，并研究后门数据污染攻击的成功率及其可被检测的难度。

Apr, 2020

数据毒化攻击的认证防御

对使用用户提供数据训练的机器学习系统进行的数据毒化攻击问题进行了探讨，构建了数据异常移除后采用经验风险最小化的防御方法下的攻击损失上限并给出了攻击方法，检验了在 MNIST-1-7，Dogfish 数据集上其防御能力较强，而在 IMDB 情感数据集上加入 3% 的毒化数据可将测试误差从 12% 提升至 23%。

Jun, 2017

使用数据污染进行深度学习系统的有针对性后门攻击

该论文研究了基于深度学习的认证系统对于后门攻击的脆弱性，特别是通过数据注入的后门攻击，通过注入极少的毒数据，攻击者可以成功实现攻击，进而窃取敏感信息，从而为后续研究防御策略提供了研究价值。

Dec, 2017

后门学习：一项调查

该研究对针对深度神经网络的后门攻击进行了全面的调查，总结和分类现有的后门攻击和防御方法，并提供了分析基于攻击方法的中毒后门攻击的统一框架，并分析了后门攻击与相关领域（如敌对攻击和数据污染）的关系，同时总结了广泛采用的基准数据集。

Jul, 2020

在线学习中的数据投毒攻击

此研究考虑了数据污染攻击领域，并对在线学习中的数据污染攻击进行了系统性研究，采用了一种优化策略并提出了三种解决方案，最终讨论了防御成功所需的因素。

Aug, 2018

真相血清：毒化机器学习模型揭示它们的秘密

介绍了一种新的针对机器学习模型的攻击方式，即通过污染训练数据集，导致模型泄露属于其他用户的私人数据。该攻击包括成员推断、属性推断和数据提取等多方面，可能会危及多方面的用户隐私。

Mar, 2022

通过污染攻击在事件序列数据中隐藏后门

金融行业使用深度学习模型做出重要决策，但这导致了新的危险，因为深度黑盒模型容易受到对抗性攻击。为了在复杂的离散序列空间上植入后门，我们提供了一种方法来引入隐藏的后门，破坏模型的功能性。我们的实验研究揭示了这些影响如何在不同数据集、架构和模型组件中变化，同时探索了其他方法和基线，发现它们效率较低。研究结果不仅揭示了当代模型的漏洞，还有助于构建更健壮的系统。

Aug, 2023