Oct, 2022

索多玛的苹果:通过对比学习在优越句子嵌入中隐藏后门

TL;DR本论文发现对比学习可以为预训练模型生成优秀的句向量,但也容易受到后门攻击。我们提出了第一个针对最先进的句子嵌入模型进行监督和非监督学习的后门攻击框架 BadCSE。通过注入后门攻击到句子嵌入中,BadCSE 在下游微调时具有抗干扰的特性。我们在 STS 任务和其他下游任务上评估了 BadCSE,监督式非定向攻击获得了 194.86%的性能下降,而定向攻击将后门添加到了目标嵌入中,成功率为 97.70%,同时保持模型的实用性。