Aug, 2023

ParaFuzz: NLP 中一种基于可解释性技术的检测有毒样本的方法

TL;DR本研究提出了一种创新的测试时毒样本检测框架,依靠模型预测的可解释性,并关注输入的语义含义,旨在解决当前检测机制对于隐蔽型后门攻击(如基于风格的攻击)的局限性。通过采用 ChatGPT 及模版工程问题来执行触发词去除任务,并结合模糊测试技术发现最佳的改写提示来有效消除触发词,同时保持输入语义,实验证明该方法在 4 种类型的后门攻击和 4 个不同数据集上均优于基线方法(包括 STRIP,RAP 和 ONION)的准确率和召回率。