May, 2022

对抗难以察觉的有毒触发器的强健对话代理

TL;DR本文探讨了自然语言处理中毒性检测模型的发展和对抗性攻击的防御机制,提出了一种攻击和防御机制针对对话系统,能够自动触发系统生成毒性语言,同时保持谈话流畅度,并证明了该防御机制不仅有效避免了毒性语言生成,而且可以推广到对话系统之外的语言生成模型。