ACLOct, 2020

自然语言处理模型中的隐蔽数据毒化攻击

TL;DR本研究开发了一种新的数据污染攻击方法,能够在训练数据中插入少量样本并控制模型预测结果,其中包含一个特定的强制词,同时提出了三种缓解该攻击的防御策略。