attack success rate | BriefGPT

关键词attack success rate

搜索结果 - 25

通过条件性 BERT 抽样改写有意义的句子及其欺骗文本分类器应用
本文提出了一个名为 ParaphraseSampler 的新样本采样技术，通过进行句子级别的改写，应用了一种新的修改标准 —— 句子级威胁模型，并在 6 个数据集上进行了实验。结果表明，许多重写的句子都被分类器误分类，并且我们的 Parap
PDF4 years ago
无触发后门攻击对抗深度神经网络
本文中提出了基于随机失活技术的无需触发器的深度神经网络后门攻击方法，该方法在保持攻击成功率的前提下，对模型的实用性损失十分微小。
PDF4 years ago
ACL文本对抗攻击的上下文扰动
本文提出了一种基于上下文的 CLARE 模型，通过掩码插值过程生成流畅和语法正确的对抗样例，旨在发现自然语言处理模型的脆弱性，并通过三个上下文化扰动方法 —— 替换、插入、合并，产生不同长度的文本以提高攻击效率，并通过实验和人类评估证明了相
PDF4 years ago
Bullseye Polytope: 一种可扩展的干净标记毒性攻击并提高传递性
研究发现，干净标签数据集污染攻击是神经网络安全的一个最近问题，该攻击会注入正确标记的毒样本，并会触发有针对性的错误分类；此文提出了 Bullseye Polytope，这是一种可扩展的并且可以迁移的混合污染攻击方式，在推广学习中创造出与目标
PDF4 years ago
卷积神经网络模型中的后门嵌入：通过不可见扰动
本文介绍了一种特定类型的数据投毒攻击，即后门注入攻击，讨论了攻击者注入后门到深度学习模型中的方法，并提出了两种在不削弱受害者模型有效性的情况下，难以察觉但能实现模型毒化的后门生成方法。我们进行了广泛的实验评估，并证明即使在最弱的攻击者模型下
PDF6 years ago