自然语言处理模型中的隐蔽数据毒化攻击

ACLOct, 2020

自然语言处理模型中的隐蔽数据毒化攻击

Concealed Data Poisoning Attacks on NLP Models

Eric Wallace, Tony Z. Zhao, Shi Feng, Sameer Singh

TL;DR本研究开发了一种新的数据污染攻击方法，能够在训练数据中插入少量样本并控制模型预测结果，其中包含一个特定的强制词，同时提出了三种缓解该攻击的防御策略。

Abstract

adversarial attacks alter nlp model predictions by perturbing test-time inputs. However, it is much less understood whether, and how, predictions can be manipulated with small, concealed changes to the training d

adversarial attacks nlp model data poisoning attack trigger phrase defenses

发现论文，激发创造

指导调整期间的语言模型中毒

本研究表明对 instruction-tuned LMs 输入恶意抽样将导致模型预测失准，大型 LMs 在此方面更易受攻击，而基于数据过滤或减少模型容量的防御措施提供的保护有限，同时会降低测试准确性。

May, 2023

真相血清：毒化机器学习模型揭示它们的秘密

介绍了一种新的针对机器学习模型的攻击方式，即通过污染训练数据集，导致模型泄露属于其他用户的私人数据。该攻击包括成员推断、属性推断和数据提取等多方面，可能会危及多方面的用户隐私。

Mar, 2022

强制生成模型退化：数据注毒攻击的力量

通过细粒度的实验，我们展示了在大语言模型的精调阶段仅仅使用总数据样本的 1% 即可成功地对大语言模型进行毒化，这是针对自然语言生成任务进行的首次系统性理解并考虑了多种触发方式和攻击设置的毒化攻击。

Dec, 2023

将文字塞入系统嘴中：使用单语数据攻击神经机器翻译的有针对性攻击

该研究表明，神经机器翻译系统不仅容易受到对抗性测试输入的攻击，而且容易受到训练攻击的影响，作者提出了一种毒化攻击方法，插入带有误导性的毒化样本，从而在神经机器翻译系统训练中引起指定的翻译行为，本文提出了防御方法，但仍需要紧急关注。

Jul, 2021

针对假新闻检测的对抗性数据污染：如何使模型对目标新闻进行错误分类而不修改该新闻

在这篇立场论文中，我们分析了在不允许操纵原始目标新闻的情况下如何攻击在线学习检测器的性能，以及攻击者如何潜在地引入污染数据来操纵在线学习方法的行为。我们的初步研究发现，基于复杂性和攻击类型，逻辑回归模型对此具有不同的敏感性。

Dec, 2023

SEEP: 培训动力为减轻后门污染攻击而进行潜在表示搜索

通过利用训练动态识别有毒样本并进行标签传播以提高召回率，我们提出了一种新颖的防御机制，有效降低了多种后门攻击的成功率，并保持了对干净测试集高准确度的分类。

May, 2024

机器遗忘使伪装中毒攻击变得隐蔽

在机器重学习等场景中，我们介绍伪装数据污染攻击，一种新的攻击方式，其步骤包括添加一些精心构造的点到训练数据集中，并在之后的请求中删除其中的一部分，从而导致模型的预测产生负面影响，我们考虑的是在包括 CIFAR-10、Imagenette 和 Imagewoof 数据集中加入洁净标签有针对性的攻击并使用伪装数据点来实现此攻击。

Dec, 2022

更强的数据投毒攻击突破数据清洗防御

本文研究机器学习模型在训练时通过数据毒化攻击注入恶意数据点的危害以及数据清洗防御措施的不足。通过协调毒化点放置位置和基于约束条件设计攻击的方式，开发三种不同方法规避现有的数据清洗防御措施。这些攻击方法均基于耗时的二级规划问题，并通过影响函数，极小 - 极大假说和 Karush-Kuhn-Tucker（KKT）条件来实现。我们的实验结果表明需要开发更稳健的数据清洗防御措施以应对数据毒化攻击的威胁。

Nov, 2018

通过污染攻击在事件序列数据中隐藏后门

金融行业使用深度学习模型做出重要决策，但这导致了新的危险，因为深度黑盒模型容易受到对抗性攻击。为了在复杂的离散序列空间上植入后门，我们提供了一种方法来引入隐藏的后门，破坏模型的功能性。我们的实验研究揭示了这些影响如何在不同数据集、架构和模型组件中变化，同时探索了其他方法和基线，发现它们效率较低。研究结果不仅揭示了当代模型的漏洞，还有助于构建更健壮的系统。

Aug, 2023

条件对抗正则化自编码器对文本数据集的毒性攻击

本文研究证明自然语言推理和文本分类系统中的致命性漏洞，并提出了 “后门毒化” 攻击的方法，该攻击利用条件对抗正则化自编码器（CARA）在潜在空间中注入毒素来生成毒化训练样本并导致系统面临严重的安全风险。

Oct, 2020