EMNLPOct, 2022

Fine-mixing: 缓解精调语言模型中的后门问题

TL;DR本文提出了利用预先训练的权重来缓解 Fine-tuning 语言模型中后门攻击的技术,即 Fine-mixing 和 Embedding Purification,通过三个单句情感分类任务和两个句对分类任务的实验表明,它们的性能优于现有的后门缓解方法,并为安全 Fine-tuned NLP 模型提供了一个基线防御。