Feb, 2022

采用动态边界缩放的约束优化方法有效防御自然语言处理后门攻击

TL;DR本研究提出了一种新的用于语言处理的反漏洞优化方法,通过使用动态降温系数来改变损失函数,逐渐聚焦于真实触发器上,并使用降温回滚机制来避免局部最优,并应用于 1600 个模型,发现该技术有效地在 3 个主流自然语言处理任务中检测和移除了 4 种基线攻击。