本篇论文旨在寻找普适的对抗触发器 (universal adversarial triggers),使用梯度导向的搜索过程寻找跨任务短小的触发序列,并展示了触发序列的强大攻击性能。触发序列即使在输入无关的情况下,对模型的全局行为也提供了一种分析方法。
Aug, 2019
利用对抗正则化自编码器 (ARAE) 和梯度搜索等技术,对现代文本分类器进行了对抗攻击,生成的词组比先前模型更接近自然的英语短语,并能在被加入到输入文本后成功混淆分类器,并且难以被自动检测或人为辨识。该研究的目的是展示对抗攻击可以比先前认为的更难被检测到,并推动防御技术的发展。
May, 2020
本研究探讨了在维持语义和语法约束的前提下进行对抗样本攻击的可行性,通过 crowdsourcing 实验发现人类可以通过语义保持的词汇替换生成大量的对抗样本,这些人类生成的对抗样本虽然比最好的算法更加高效,但在自然性、情感及语法方面的表现并不高于最佳算法。
Sep, 2021
通过提出一种新的生成对抗框架 LAVA,我们成功地生成了对抗性攻击,并发现了多个目标模型的全局漏洞,揭示出这些模型的推理能力的不完全掌握与逻辑漏洞,同时我们证明了在生成的样本上进行训练可以提高目标模型的性能。
Apr, 2022
该研究提出了一种决策式的攻击策略,利用基于人口统计的优化算法,通过仅观察目标模型预测的前一标签,制作出可信且语义相似的对抗性例子。与先前文献中提出的攻击相比,在高度限制的情况下,成功率更高,被替换单词比例更低。
Dec, 2020
本研究探讨使用黑盒方法攻击自然语言处理模型的重要任务,并提出了一种攻击策略,通过考虑原始单词及其周围情境的信息来找到候选单词,并在上下文理解方面共同利用掩码语言模型和下一句子预测。与先前的攻击相比,我们能够生成高质量的对抗性示例,成功率和单词扰动百分比都有显著提高。
该研究提出了一种有效的方法来生成白盒对抗样本,以欺骗字符级神经分类器,在一些操作后,能够大大降低其准确性,该方法依赖于原子翻转操作来交换一个标记为另一个标记,基于独热输入向量的梯度。通过使用一些语义保留约束,展示了 HotFlip 攻击也可以适用于词级别分类器,并且该方法效率高,可以进行对抗训练,使模型在测试时更加健壮。
Dec, 2017
在这项研究中,我们将对抗性攻击结果视为模型的一个新(未见过的)领域,并将防御问题转化为如何提高模型在这个新领域的鲁棒性。我们关注会话蕴含任务,其中多轮自然语言对话是前提,通过对变换模型进行微调以预测给定对话的假设是真还是假。我们采用同义词交换作为攻击方法,并实施了一些微调策略,并提出了嵌入扰动损失作为提高模型鲁棒性的方法。最后,通过讨论自然语言处理中现实世界的对抗攻击,展示了我们工作的重要性。
May, 2024
针对通过优化模型找到的诱发不安全响应的标记序列,即对抗触发器,我们研究了它们的转移能力、鲁棒性以及优化方法对模型的影响,发现对齐的偏好优化模型(APO)极难被破解,然而对齐的微调模型(AFT)对对抗触发器非常敏感,并且大部分针对 AFT 模型优化的触发器还可以泛化到来自五个不同领域的新的不安全指令,突显了它们的脆弱性。因此,我们的工作强调了对对齐语言模型进行更全面安全评估的必要性。
Apr, 2024
通过使用具有 API 访问的远程语言模型构建具有更高概率发出有害字符串的对抗性示例,我们改进了之前的工作,并验证了我们的攻击在 GPT-3.5 和 OpenAI 的安全分类器上的有效性。
Feb, 2024