Feb, 2023

基于词重要性熵的对抗文本检测

TL;DR本文研究针对自然语言处理(NLP)模型的对抗攻击算法,发现攻击算法主要破坏文本中的单词重要性分布,基于此提出一种新的防御框架 TextDefense,利用目标模型的能力来检测对抗样本,不需要先验知识,并发现影响 TextDefense 性能的主要因素是目标模型的可推广性。