神经序列到序列模型中检测极端响应

Sep, 2018

神经序列到序列模型中检测极端响应

Detecting egregious responses in neural sequence-to-sequence models

Tianxing He, James Glass

TL;DR本文通过实证方法，设计了离散优化算法，有效地找到了会导致训练良好的离散空间神经网络序列到序列模型生成攻击性文本输出的输入序列，以及针对真实世界用户的输入序列。通过在通话响应生成模型上进行实验，发现部分触发语句可以让得出的结果是有攻击性的。

Abstract

In this work, we attempt to answer a critical question: whether there exists some input sequence that will cause a well-trained discrete-space neural network sequence-to-sequence (seq2seq) model to generate egregious outputs (aggressive, malicious, attacking, etc.). And if such inputs exist, how to find them efficiently. We adopt an empirical methodology, in

neural network seq2seq model optimization algorithm dialogue response generation malicious outputs

发现论文，激发创造

Seq2Sick: 使用对抗性示例评估序列到序列模型的鲁棒性

该论文提出了一种利用梯度方法，结合组套稀疏和梯度正则化，以应对文本离散输入空间、近乎无限输出空间的序列到序列模型的对抗样本问题，并设计了新的损失函数来进行非重叠攻击和有针对性的关键词攻击。针对机器翻译和文本摘要任务，研究发现该方法的有效性。

Mar, 2018

序列到序列模型下的后门学习

本文针对输出空间无限离散的 seq2seq 模型做了后门攻击的研究，发现只需注入 0.2% 的样本，即可成功使模型生成指定关键词和完整句子，使用 Byte Pair 编码技术可以创建多个新的后门，通过机器翻译和文本摘要的实验验证了该方法攻击成功率超过 90%。

May, 2023

为循环神经网络构建对抗输入序列

通过添加精心选择的扰动来制造对机器学习模型的对抗输入，以此来解决复杂安全问题、引导自主车辆或预测金融市场行为，本文提出了在序列数据中处理递归神经网络的对抗输入序列，表明了先前为前馈神经网络所用算法的类别也可以适用于递归神经网络，对实验结果表明对手可以欺骗机器学习模型从而误导其判断。

Apr, 2016

机器翻译模型面对敌对攻击表现强劲

深度学习模型中的对抗攻击通过对输入进行微小扰动，从而导致输出发生重大变化。我们的研究重点是这种对抗攻击对序列到序列（seq2seq）模型的影响，特别是机器翻译模型。我们引入了基本的文本扰动启发式算法和更高级的策略，例如基于梯度的攻击，该攻击利用可微分逼近的非可微分翻译度量。通过我们的调查，我们提供了证据表明机器翻译模型对已知最佳对抗攻击显示出鲁棒性，因为输出中的扰动程度与输入中的扰动成正比。然而，在次优方法中，我们的攻击方法优于其他方法，提供了最佳的相对性能。另一个有力的候选方法是基于混合单个字符的攻击。

Sep, 2023

关于对序列到序列模型进行对抗扰动评估

提出一种新的 seq2seq 模型对抗攻击的评估框架，并证明现有方法普遍无法保持语义的等价性。同时，发现在对模型进行对抗性训练时，使用保持意义的攻击可以提高模型的鲁棒性而不影响测试性能。

Mar, 2019

通过污染攻击在事件序列数据中隐藏后门

金融行业使用深度学习模型做出重要决策，但这导致了新的危险，因为深度黑盒模型容易受到对抗性攻击。为了在复杂的离散序列空间上植入后门，我们提供了一种方法来引入隐藏的后门，破坏模型的功能性。我们的实验研究揭示了这些影响如何在不同数据集、架构和模型组件中变化，同时探索了其他方法和基线，发现它们效率较低。研究结果不仅揭示了当代模型的漏洞，还有助于构建更健壮的系统。

Aug, 2023

基于查询的对抗性提示生成

通过使用具有 API 访问的远程语言模型构建具有更高概率发出有害字符串的对抗性示例，我们改进了之前的工作，并验证了我们的攻击在 GPT-3.5 和 OpenAI 的安全分类器上的有效性。

Feb, 2024

DANCin SEQ2SEQ: 使用对抗文本样本生成欺骗文本分类器

本研究提出 DANCin SEQ2SEQ，一种基于强化学习的算法来生成文本领域黑盒分类器的对抗样本，旨在探究模型的假设与漏洞。实验表明该算法能够初步但有前途地生成有意义的对抗性文本样本。

Dec, 2017

通用对抗触发器针对自然语言处理的攻击与分析

本篇论文旨在寻找普适的对抗触发器 (universal adversarial triggers)，使用梯度导向的搜索过程寻找跨任务短小的触发序列，并展示了触发序列的强大攻击性能。触发序列即使在输入无关的情况下，对模型的全局行为也提供了一种分析方法。

Aug, 2019

利用对抗扰动的对比学习实现条件文本生成

该论文通过对比正负样本来缓解序列到序列模型中的条件文本生成问题，通过生成正负样本来引导模型更好地区分正确的输出和错误的输出，并提出了一种原则性的方法来生成正负样本，改进了机器翻译、文本摘要和问题生成等三个文本生成任务的泛化能力。

Dec, 2020