AAAIJun, 2021

自然语言生成中的后门攻击防护

TL;DR本文研究神经网络模型中存在的后门攻击对自然语言生成系统的影响,并提出了相应的防御策略。通过测试生成目标给定源的后向概率,能够有效地防御各种类型的攻击,并处理对话生成等多任务中的一对多问题。该研究有望引起人们对深度自然语言生成系统中后门风险的关注,并启发更多有关攻击和防御的未来研究。