May, 2023

序列到序列模型下的后门学习

TL;DR本文针对输出空间无限离散的 seq2seq 模型做了后门攻击的研究,发现只需注入 0.2% 的样本,即可成功使模型生成指定关键词和完整句子,使用 Byte Pair 编码技术可以创建多个新的后门,通过机器翻译和文本摘要的实验验证了该方法攻击成功率超过 90%。