神经文本检测器的高效黑盒对抗攻击
本文介绍了两种黑匣子攻击方法,一种是将字符随机替换为了形似字,另一种是故意拼错单词,受攻击的神经文本检测器从 97.44%降至 0.26%和 22.68%,攻击也可转移至其他文本检测器。
Feb, 2020
在本文中,我们提出了一个针对更广泛的对抗性攻击类别的框架,旨在对机器生成的内容进行微小扰动以逃避检测,通过对动态场景中的对抗性学习来评估当前检测模型对这种攻击的鲁棒性的潜力提升。实证结果发现,现有的检测模型可以在仅 10 秒内受到破坏,将机器生成的文本误分类为人类撰写的内容。尽管观察到模型鲁棒性方面的一些改进,但实际应用仍面临重大挑战,这些发现为 AI 文本检测器的未来发展提供了启示,强调了对更准确和鲁棒的检测方法的需求。
Apr, 2024
本研究提出了一种基于字符串编辑的白盒敌手算法,并在字符级别神经机器翻译模型中使用两种新类型的攻击来比较黑盒和白盒对抗例子的强度。该研究发现,白盒对抗例子在不同的攻击场景中都会显著强于黑盒对抗例子,并证明在对抗训练中取得了显著的鲁棒性提高。
Jun, 2018
本研究旨在通过训练检测器以区分生成文本与人类编写文本,并发现适用于小且部分训练的生成模型更易检测。检测器与生成器是否基于相同数据不影响检测结果。
May, 2023
本文介绍了一种针对自然语言处理分类器的黑盒硬标签攻击的新方法,其中没有模型信息被公开,攻击者只能查询模型以获得分类器的最终决策,该攻击场景适用于用于情感分析和有毒内容检测等安全敏感应用的真实世界黑盒模型。
Aug, 2020
利用机器学习模型对文章进行自动生成的大语言模型,在知识产权保护、个人隐私和学术诚信方面引发了关注。AI 文本检测系统目前存在鲁棒性不足和难以有效区分扰动文本的问题。本研究通过模拟真实场景,评估当前检测模型在实际应用中的性能,并构建了 12 种黑盒文本扰动方法来评估检测模型的鲁棒性。此外,通过对抗学习实验,研究扰动数据增强对 AI 文本检测器鲁棒性的影响。
Jun, 2024
本文介绍了一种有效的方法来生成文本对抗样本,证明了基于深度神经网络的文本分类器同样容易受到对抗样本的攻击。通过计算代价梯度或者生成一系列遮盖测试样本,可以识别用于分类的文本信息,基于这些信息,设计了三种扰动策略(插入、修改、删除)来生成对抗样本。实验表明,基于我们方法生成的对抗样本可以成功欺骗基于字符和词语所的 DNN 文本分类器,并且可以扰动到任意的分类类别而不影响其实用性,同时所引入的扰动难以被发现。
Apr, 2017
本文提出了一种称为 DeepWordBug 的算法,它可以在黑盒设置下生成小的文本扰动以强制深度学习分类器错误地分类文本输入,并通过基于词的 LSTM 和基于字符的 CNN 等八个真实世界文本数据集的实验表明,我们的算法可以有效地降低当前最先进的深度学习模型的预测准确性。
Jan, 2018
本研究探讨了计算机生成文本检测及其鲁棒性问题,发现统计特征在提高模型鲁棒性方面表现优越,建议在组合检测模型中采用;同时,复杂短语特征已经不再适用于现代生成模型的检测,传统统计特征已经成为更优的选择。
Mar, 2022