Jun, 2024

分析特洛伊 BERT 模型的多头注意力

TL;DR该研究探讨了多头注意力在 Transformer 模型中的行为,特别关注在情感分析背景下良性和特洛伊模型之间的差异。特洛伊攻击导致模型在干净输入上表现正常,但在包含预定义触发器的输入上出现误分类。我们对特洛伊和良性模型中的注意力头函数进行了表征,识别出特定的 “特洛伊” 头部,并分析了它们的行为。