Jan, 2022

自然语言处理中后门攻击强度的评估方法重构

TL;DR该研究介绍了一种新的指标 ASRD,用于评估后门攻击的真实攻击能力,并提出了 Trigger Breaker,可以有效地防御隐身后门攻击。