Apr, 2022

基于数据表示的分布特征检测文本对抗攻击样本

TL;DR本文提出两种反应式方法来检测 NLP 中的文字对抗样本,使用分布特征学习表示的 LID 和 MDRE 方法取得了 IMDB 和 MultiNLI 数据集上字符级、词级、短语级攻击领域的最新成果。