Mar, 2021
谨防中毒词嵌入: 探究NLP模型嵌入层的漏洞
Be Careful about Poisoned Word Embeddings: Exploring the Vulnerability
of the Embedding Layers in NLP Models
TL;DR该论文揭示了自然语言处理(NLP)模型的安全威胁,即后门攻击。通过修改一个单词嵌入向量,攻击者可以在没有损失准确率的情况下破坏模型的行为,同时引发了一个特定的触发词。实验结果表明,该方法更高效、更隐秘,可提高NLP模型的安全意识。