使用自然触发器的通用文本对抗攻击

ACLMay, 2020

使用自然触发器的通用文本对抗攻击

Universal Adversarial Attacks with Natural Triggers for Text Classification

Liwei Song, Xinwei Yu, Hsuan-Tung Peng, Karthik Narasimhan

TL;DR利用对抗正则化自编码器 (ARAE) 和梯度搜索等技术，对现代文本分类器进行了对抗攻击，生成的词组比先前模型更接近自然的英语短语，并能在被加入到输入文本后成功混淆分类器，并且难以被自动检测或人为辨识。该研究的目的是展示对抗攻击可以比先前认为的更难被检测到，并推动防御技术的发展。

Abstract

Recent work has demonstrated the vulnerability of modern text classifiers to universal adversarial attacks, which are input-agnostic sequences of words added to text processed by classifiers. Despite being succes

adversarial attacks text classifiers arae gradient-based search defense

发现论文，激发创造

通用对抗触发器针对自然语言处理的攻击与分析

本篇论文旨在寻找普适的对抗触发器 (universal adversarial triggers)，使用梯度导向的搜索过程寻找跨任务短小的触发序列，并展示了触发序列的强大攻击性能。触发序列即使在输入无关的情况下，对模型的全局行为也提供了一种分析方法。

Aug, 2019

生成具有标签内聚力和良好形式的对抗性主张

本文主要研究如何生成对于事实核查系统具有对抗性的攻击，使其保持着地面事实的意义和语义的有效性，为此采用了 HotFlip 攻击算法与条件语言模型相结合的方法，生成出了一批具有方向性和语义有效性的攻击。

Sep, 2020

文本分类器通用对抗策略

我们引入了一种新的通用对抗策略，通过在多个文本上学习一个单一的搜索策略，可以成功地找到通用的对抗样本，该策略基于与文本领域相关的名称替换和语义保留文本修改，并使用强化学习来提取强基线方法。

Jun, 2022

通用对抗触发器并非通用

针对通过优化模型找到的诱发不安全响应的标记序列，即对抗触发器，我们研究了它们的转移能力、鲁棒性以及优化方法对模型的影响，发现对齐的偏好优化模型（APO）极难被破解，然而对齐的微调模型（AFT）对对抗触发器非常敏感，并且大部分针对 AFT 模型优化的触发器还可以泛化到来自五个不同领域的新的不安全指令，突显了它们的脆弱性。因此，我们的工作强调了对对齐语言模型进行更全面安全评估的必要性。

Apr, 2024

人类和机器生成的文本分类词级对抗样本对比

本研究探讨了在维持语义和语法约束的前提下进行对抗样本攻击的可行性，通过 crowdsourcing 实验发现人类可以通过语义保持的词汇替换生成大量的对抗样本，这些人类生成的对抗样本虽然比最好的算法更加高效，但在自然性、情感及语法方面的表现并不高于最佳算法。

Sep, 2021

识别文本分类器的对抗攻击

本文为对文本分类器对抗攻击的取证研究提供了第一步，通过分析对抗文本来确定其创建方法，提供了一个广泛的攻击检测和标记数据集，使用该数据集开发和基准测试攻击识别的多个分类器，并展示了三类特征对这些任务的有效性。

Jan, 2022

生成自然语言攻击的上下文感知方法

本研究探讨使用黑盒方法攻击自然语言处理模型的重要任务，并提出了一种攻击策略，通过考虑原始单词及其周围情境的信息来找到候选单词，并在上下文理解方面共同利用掩码语言模型和下一句子预测。与先前的攻击相比，我们能够生成高质量的对抗性示例，成功率和单词扰动百分比都有显著提高。

Dec, 2020

人性化机器生成内容：通过对抗性攻击规避 AI 文本检测

在本文中，我们提出了一个针对更广泛的对抗性攻击类别的框架，旨在对机器生成的内容进行微小扰动以逃避检测，通过对动态场景中的对抗性学习来评估当前检测模型对这种攻击的鲁棒性的潜力提升。实证结果发现，现有的检测模型可以在仅 10 秒内受到破坏，将机器生成的文本误分类为人类撰写的内容。尽管观察到模型鲁棒性方面的一些改进，但实际应用仍面临重大挑战，这些发现为 AI 文本检测器的未来发展提供了启示，强调了对更准确和鲁棒的检测方法的需求。

Apr, 2024

条件对抗正则化自编码器对文本数据集的毒性攻击

本文研究证明自然语言推理和文本分类系统中的致命性漏洞，并提出了 “后门毒化” 攻击的方法，该攻击利用条件对抗正则化自编码器（CARA）在潜在空间中注入毒素来生成毒化训练样本并导致系统面临严重的安全风险。

Oct, 2020

基于突变的神经文本检测器对抗攻击

本论文提出了基于字符和词语的变异操作方法，用于生成对抗样本以攻击最先进的自然文本检测器，从而逐渐减少机器学习模型和分类器的预测准确性。

Feb, 2023