ACLJun, 2023

VoteTRANS: 通过在转换的困难标签上投票检测敌对文本,无需训练

TL;DR本文提出了一种名为 VoteTRANS 的检测方法,通过比较输入文本和其转换的硬标签来检测对抗性文本,无需基于原始数据或对抗数据进行训练,并且在各种最新的攻击、模型和数据集上表现良好。