ACLJun, 2023
VoteTRANS: 通过在转换的困难标签上投票检测敌对文本,无需训练
VoteTRANS: Detecting Adversarial Text without Training by Voting on Hard Labels of Transformations
Hoang-Quoc Nguyen-Son, Seira Hidano, Kazuhide Fukushima, Shinsaku Kiyomoto, Isao Echizen
TL;DR本文提出了一种名为 VoteTRANS 的检测方法,通过比较输入文本和其转换的硬标签来检测对抗性文本,无需基于原始数据或对抗数据进行训练,并且在各种最新的攻击、模型和数据集上表现良好。