条件对抗正则化自编码器对文本数据集的毒性攻击

EMNLPOct, 2020

条件对抗正则化自编码器对文本数据集的毒性攻击

Poison Attacks against Text Datasets with Conditional Adversarially Regularized Autoencoder

Alvin Chan, Yi Tay, Yew-Soon Ong, Aston Zhang

TL;DR本文研究证明自然语言推理和文本分类系统中的致命性漏洞，并提出了 “后门毒化” 攻击的方法，该攻击利用条件对抗正则化自编码器（CARA）在潜在空间中注入毒素来生成毒化训练样本并导致系统面临严重的安全风险。

Abstract

This paper demonstrates a fatal vulnerability in natural language inference (NLI) and text classification systems. More concretely, we present a 'backdoor poisoning' attack on NLP models. Our poisoning attack uti

natural language inference text classification backdoor poisoning conditional adversarially regularized autoencoder security risk

发现论文，激发创造

自然语言处理模型中的隐蔽数据毒化攻击

本研究开发了一种新的数据污染攻击方法，能够在训练数据中插入少量样本并控制模型预测结果，其中包含一个特定的强制词，同时提出了三种缓解该攻击的防御策略。

Oct, 2020

使用生成对抗网络进行的投毒攻击

本文介绍了一种新的生成模型，用于对机器学习分类器进行攻击，并提出了一种生成式对抗网络，包括生成器、鉴别器和目标分类器，以模拟在现实攻击中可以预期的检测限制，进而确定底层数据分布的易受数据中毒攻击的区域。

Jun, 2019

强制生成模型退化：数据注毒攻击的力量

通过细粒度的实验，我们展示了在大语言模型的精调阶段仅仅使用总数据样本的 1% 即可成功地对大语言模型进行毒化，这是针对自然语言生成任务进行的首次系统性理解并考虑了多种触发方式和攻击设置的毒化攻击。

Dec, 2023

针对假新闻检测的对抗性数据污染：如何使模型对目标新闻进行错误分类而不修改该新闻

在这篇立场论文中，我们分析了在不允许操纵原始目标新闻的情况下如何攻击在线学习检测器的性能，以及攻击者如何潜在地引入污染数据来操纵在线学习方法的行为。我们的初步研究发现，基于复杂性和攻击类型，逻辑回归模型对此具有不同的敏感性。

Dec, 2023

通过对比学习和自编码器来改善基于梯度的文本分类对抗训练

本文提出了两种新的对抗训练方法：一种是在表示空间中缩小原始样本和其对抗样本的距离，同时扩大其与不同标记样本的距离；另一种是将模型迫使在对抗性表示下重构原始样本，实验证明这两种方法在各种文本分类数据集上优于强基线。分析实验证明，我们的方法可以有效提高模型的抗打击能力，同时不显著影响输入句子的语义表示。

Sep, 2021

谨防中毒词嵌入：探究 NLP 模型嵌入层的漏洞

该论文揭示了自然语言处理（NLP）模型的安全威胁，即后门攻击。通过修改一个单词嵌入向量，攻击者可以在没有损失准确率的情况下破坏模型的行为，同时引发了一个特定的触发词。实验结果表明，该方法更高效、更隐秘，可提高 NLP 模型的安全意识。

Mar, 2021

将文字塞入系统嘴中：使用单语数据攻击神经机器翻译的有针对性攻击

该研究表明，神经机器翻译系统不仅容易受到对抗性测试输入的攻击，而且容易受到训练攻击的影响，作者提出了一种毒化攻击方法，插入带有误导性的毒化样本，从而在神经机器翻译系统训练中引起指定的翻译行为，本文提出了防御方法，但仍需要紧急关注。

Jul, 2021

神经网络生成对抗攻击方法

本论文研究了在机器学习算法中，特别是深度神经网络中毒攻击的方法，提出了生成毒瘤数据的生成方法，并设计了一种检测方法来检测这种攻击。实验结果表明，与直接梯度法相比，这种方法可以加速毒瘤数据的生成速度高达 239.38 倍，且模型的准确度下降略微较低。

Mar, 2017

两个简单技巧使得文本后门攻击更加有害

本文针对深度学习领域的后门攻击进行研究，通过添加训练任务以区分被污染数据和干净数据，以及使用原有的干净数据进行攻击，提高攻击效果，并在三种场景下进行了实验验证。

Oct, 2021

实现稳健有害内容分类

本文提出了一种通过生成包含毒性单词的对抗样本，从而检验模型对毒性内容的识别性能，并探讨了使用 Contextual Denoising Autoencoder 提高模型鲁棒性的方法。实验表明，该方法在某些情况下可以将现有模型的检测准确率降低 50％以上。

Dec, 2019