EMNLPOct, 2020

条件对抗正则化自编码器对文本数据集的毒性攻击

TL;DR本文研究证明自然语言推理和文本分类系统中的致命性漏洞,并提出了 “后门毒化” 攻击的方法,该攻击利用条件对抗正则化自编码器(CARA)在潜在空间中注入毒素来生成毒化训练样本并导致系统面临严重的安全风险。