攻击神经文本检测器
通过调整参数、优化提示语和进行字符级别的变异,我们研究了改变 GPT-3.5 生成的文本的三种简单且资源高效的策略,这些策略在人类不会察觉但能使神经文本检测器误分类的文本中特别有效。
Nov, 2023
本研究通过分析同形异义字如何转移文本的记号化和标记的对数似然值,对比了现有大语言模型检测器在五个不同数据集上与同形异义字攻击的有效性,发现同形异义字攻击可以有效躲避现有的大语言模型检测器, 讨论了这些发现的影响以及可能的防御方法。
Jun, 2024
在本文中,我们提出了一个针对更广泛的对抗性攻击类别的框架,旨在对机器生成的内容进行微小扰动以逃避检测,通过对动态场景中的对抗性学习来评估当前检测模型对这种攻击的鲁棒性的潜力提升。实证结果发现,现有的检测模型可以在仅 10 秒内受到破坏,将机器生成的文本误分类为人类撰写的内容。尽管观察到模型鲁棒性方面的一些改进,但实际应用仍面临重大挑战,这些发现为 AI 文本检测器的未来发展提供了启示,强调了对更准确和鲁棒的检测方法的需求。
Apr, 2024
本研究探索了一种新的文本诱骗攻击方式,使用对人眼不可见的编码特定干扰,攻击了广泛应用于神经机器翻译和网络搜索引擎等自然语言处理系统的文本模型,破坏了系统的性能,提出了输入净化的需求。
Jun, 2021
该研究表明,神经机器翻译系统不仅容易受到对抗性测试输入的攻击,而且容易受到训练攻击的影响,作者提出了一种毒化攻击方法,插入带有误导性的毒化样本,从而在神经机器翻译系统训练中引起指定的翻译行为,本文提出了防御方法,但仍需要紧急关注。
Jul, 2021
通过在文本描述中插入单个非拉丁字符,我们展示了普通模型如何反映文化刻板印象和偏见。我们定性和定量分析了这种行为,并将其归因于模型的文本编码器。此外,我们提出了一种新颖的同形学习方法,通过微调文本编码器,使其能够抵抗同形符号的操纵.
Sep, 2022
本篇研究探讨了将文本进行视觉篡改后对 NLP 系统的攻击方法,在字符级别、单词级别和句子级别的任务中,神经模型和非神经模型的性能都会降低高达 82%,并研究了三种防御方法 —— 视觉字符嵌入、对抗性训练、基于规则的恢复 —— 这些方法可显著提高模型的鲁棒性,但与攻击未发生时的性能相比仍有一定差距。
Mar, 2019
本文提出通过嵌入本质隐形且难以检测的触发器进行的 NLP 背门攻击,该攻击能超过多项 NLP 任务,例如有害评论检测,机器翻译和问答系统,能在维持正常使用的正常用户的同时,在不经意间实施高成功率的攻击。
May, 2021