ICLRFeb, 2020

攻击神经文本检测器

TL;DR本文介绍了两种黑匣子攻击方法,一种是将字符随机替换为了形似字,另一种是故意拼错单词,受攻击的神经文本检测器从 97.44%降至 0.26%和 22.68%,攻击也可转移至其他文本检测器。