textual backdoor attacks | BriefGPT

关键词textual backdoor attacks

搜索结果 - 5

ACL无任务依赖的检测器用于插入式背门攻击
文本后门攻击是重要的安全威胁。当前的检测方法通常依赖于中间特征表示或重构潜在触发器，任务特异性和在问题回答和命名实体识别等任务中的效果较差。我们介绍了 TABDet（任务不可知后门检测器），一种用于后门检测的开创性的任务不可知方法。TABD
PDF3 months ago
使用 ChatGPT 作为攻击工具：通过黑盒生成模型触发的微妙文本后门攻击
本文研究黑盒生成模型作为后门攻击工具的作用以及相关防御策略，通过提出的基于生成模型的攻击方法 BGMAttack，证明其在对文本分类器进行攻击时能够有效地欺骗目标模型且更具隐秘性。五个不同数据集的广泛攻击效果评估，以及三个不同的人类认知评估
PDFa year ago
使用噪声增强对比学习的文本后门防御
该研究提出了基于噪声增强对比学习（NCL）框架，以保护使用不可信数据训练模型的文本后门攻击。实验表明该方法的有效性，比先前的研究表现更好。
PDFa year ago
文本背门学习的统一评估：框架与基准
本文研究了文本后门攻击对 NLP 系统的实际威胁，并提出了特定的评估协议以解决现有评估中忽略的真实环境差异问题。在此基础上，文章还开发了一个开源工具包 OpenBackdoor，以促进文本后门学习的实现和评估，在此基础上，文章详细探讨了攻击
PDF2 years ago
ACL基于干净标签的 NLP 无触发后门攻击
本文提出了一种不需要外部触发器、带有正确标签的文本后门攻击策略，通过基因算法生成干净的例子，这些干净的例子的标签是正确的，试验表明这种攻击策略不仅有效，而且由于没有触发器和干净的标签，很难防御，是在 NLP 领域研发无触发器攻击策略的第一步
PDF3 years ago