Feb, 2023

TextShield: 文本分类中超越成功检测攻击性句子

TL;DRTextShield 是一种基于显著性信息的检测器和修正器相结合的文本防御方法,可以有效检测和转换输入文本中的对抗性语句。实验表明,TextShield 比同类方法具有更高的性能和更好的检测精度。