Bagging 方法抵抗数据污染攻击的内在认证鲁棒性

AAAIAug, 2020

Bagging 方法抵抗数据污染攻击的内在认证鲁棒性

Intrinsic Certified Robustness of Bagging against Data Poisoning Attacks

Jinyuan Jia, Xiaoyu Cao, Neil Zhenqiang Gong

TL;DR本文研究了机器学习训练集中存在的数据污染攻击以及集成学习中的 Bootstrap Aggregating 方法可以预防此类攻击。我们证明了 Bagging 可以在随机采样训练集的基础上使用多个基础模型进行学习，并在测试时使用多数表决方法进行预测，在受到污染的数据范围内，仍然能够是预测结果正确的概率保持不变。我们在 MNIST 和 CIFAR10 数据集上进行了实验，证明了该方法的正确性，同时开源代码供参考。

Abstract

In a \emph{data poisoning attack}, an attacker modifies, deletes, and/or inserts some training examples to corrupt the learnt machine learning model. \emph{Bootstrap Aggregating (bagging)} is a well-known

data poisoning attack machine learning ensemble learning certified robustness threshold

发现论文，激发创造

基于随机选择的认证防御数据污染攻击的框架

该论文提出了一种基于随机选择的认证防御体系抵御数据毒化攻击，能通过平均从训练集中抽样的子数据集的分类器预测来实现认证的鲁棒性，该体系允许用户利用训练集和毒化模型的先前知识提高认证准确性，实验表明该方法优于现有技术水平。

Sep, 2020

最近邻居对数据恶意植入和后门攻击的认证鲁棒性

利用 kNN 和 rNN 内在的多数投票机制可以提供针对数据污染攻击和后门攻击的保护，并且我们的评估结果表明 kNN 和 rNN 的内在保护机制胜过目前最先进的合格防御。

Dec, 2020

数据毒化攻击的认证防御

对使用用户提供数据训练的机器学习系统进行的数据毒化攻击问题进行了探讨，构建了数据异常移除后采用经验风险最小化的防御方法下的攻击损失上限并给出了攻击方法，检验了在 MNIST-1-7，Dogfish 数据集上其防御能力较强，而在 IMDB 情感数据集上加入 3% 的毒化数据可将测试误差从 12% 提升至 23%。

Jun, 2017

装袋法显著提升泛化效果

通过在参数化级别适当地聚合基学习器而非输出级别，Bagging 能够以指数衰减减少慢慢消失的推广误差，从而显著提升推广性能。

May, 2024

基于梯度训练的数据污染的认证鲁棒性

现代机器学习流程利用大量公开数据，导致无法保证数据质量，使得模型容易遭受中毒和后门攻击。本论文提出了一个框架，首次提供了有关使用潜在操纵数据进行训练的模型行为的可证明保证。该框架通过使用凸松弛来近似计算可能的参数更新集合，限制了任何梯度下降学习算法的所有可达参数集合，并提供模型性能和后门成功率的最坏情况行为的界限。该方法在能源消耗、医学成像和自动驾驶等应用的多个真实世界数据集上进行了演示。

Jun, 2024

基于随机平滑的防御策略对数据污染有多强健？

本研究发现了一种对具有证明鲁棒性的分类器构成威胁的数据污染攻击，并提出了一种新型双层优化数据污染攻击，可降低其整个目标类别的平均有保障半径（ACR），以及降低 30％以上的目标类别平均有保障半径（ACR）

Dec, 2020

关于数据污染攻击的聚合防御实践方面

本论文重点评估了代表聚合防御的 Deep Partition Aggregation 的实用方面，包括效率、性能和鲁棒性，通过使用 ImageNet 进行评估，提供了有价值的洞见，以缓解数据中毒的威胁。

Jun, 2023

面对攻击具有强鲁棒性和高可靠性的学习者

研究了如何在多个角度上面对数据污染攻击实现强大的鲁棒性保证和提供可靠的预测，同时提供算法计算文本类问题的区间，并针对线性分离器提供了真正的多项式时间算法。

Mar, 2022

对比学习的中毒和后门攻击

研究指出多模态对比学习方法训练在无噪声且未分类的数据集上可能导致后门和毒化攻击成为重要的威胁。通过少量的毒化数据，可以影响模型分类测试图片的准确性，这显然会影响训练数据集的质量。

Jun, 2021

更强的数据投毒攻击突破数据清洗防御

本文研究机器学习模型在训练时通过数据毒化攻击注入恶意数据点的危害以及数据清洗防御措施的不足。通过协调毒化点放置位置和基于约束条件设计攻击的方式，开发三种不同方法规避现有的数据清洗防御措施。这些攻击方法均基于耗时的二级规划问题，并通过影响函数，极小 - 极大假说和 Karush-Kuhn-Tucker（KKT）条件来实现。我们的实验结果表明需要开发更稳健的数据清洗防御措施以应对数据毒化攻击的威胁。

Nov, 2018