Jun, 2022

文本背门学习的统一评估:框架与基准

TL;DR本文研究了文本后门攻击对 NLP 系统的实际威胁,并提出了特定的评估协议以解决现有评估中忽略的真实环境差异问题。在此基础上,文章还开发了一个开源工具包 OpenBackdoor,以促进文本后门学习的实现和评估,在此基础上,文章详细探讨了攻击和防御模型的性能,并提出了聚类-based 的防御策略 CUBE,为未来模型开发提供了基础。