Jan, 2023

通过模型变异测试实现语言模型后门样本检测

TL;DR本研究提出了一种基于深度模型突变测试的新型防御方法,可以在 char-level,word-level,sentence-level 以及 style-level 水平上检测恶意后门样本,并在三个基准数据集和三个样式转换数据集上表现出优异的效果。