木马 Bert 中的关注异常研究
该研究探讨了多头注意力在 Transformer 模型中的行为,特别关注在情感分析背景下良性和特洛伊模型之间的差异。特洛伊攻击导致模型在干净输入上表现正常,但在包含预定义触发器的输入上出现误分类。我们对特洛伊和良性模型中的注意力头函数进行了表征,识别出特定的 “特洛伊” 头部,并分析了它们的行为。
Jun, 2024
本文针对 Transformer 模型,研究了典型的 Trojan attacks,提出了注意力劫持模式,并从 NLP 和 CV 两个领域进行了验证,同时提出了 Attention-Hijacking Trojan Detector (AHTD) 来区分恶意软件和正常模型。
Aug, 2022
通过直接操纵注意力模式,我们提出了一种新颖的特洛伊注意力损失(TAL),以增强特洛伊行为,并提高攻击成功率和污染率,不仅适用于传统的脏标签攻击,还适用于更具挑战性的干净标签攻击。
Oct, 2023
通过提出一种名为动态注意力的新方法,我们设计了一个针对转换器架构的机制来增强模型本身对各种对抗性攻击的鲁棒性,从而显著减轻对抗性攻击的影响,并将其与其他防御方法(如对抗性训练)相结合以进一步增强模型的鲁棒性。
Nov, 2023
本文通过分析 BERT 的注意力机制及其输出结果,提出了新的方法并应用于其内部结构的探究,证明 Bert 的 attention heads 明显与语言的语法和指代有关,其中某些 attention heads 可以高精度地表示动词的直接宾语、名词的限定词和介词的宾语。
Jun, 2019
本研究基于自注意力机制进行 BERT 模型的定量及定性分析,发现模型的超参数化导致自注意力机制复用率高,不同自注意力机制对不同 NLP 任务影响不同,针对性关闭某些自注意力机制可以提升模型性能。
Aug, 2019
本研究介绍了一种使用拓扑数据分析的文本分类器。我们使用 BERT 的关注映射转换为关注图作为该分类器的唯一输入。该模型可以解决区分邮件的垃圾邮件和普通邮件等任务,并在某些任务上表现出优于 BERT 基线的性能。此外,我们提出了一种新的方法来减少涉及拓扑分类器的 BERT 注意力头的数量。我们的工作还显示,拓扑模型在对抗性攻击方面表现出更高的鲁棒性,这一特性在减少注意力头的过程中保持不变。据我们所知,这项工作是在 NLP 领域中首次使用基于拓扑的模型来应对对抗性攻击。
Jun, 2022
通过无监督聚类,我们明确将注意力热图聚类为显著不同的模式,并进一步通过分析研究了它们的对应功能,此外,我们提出的特征可以用于解释和校准 Transformer 模型中的不同注意头。
Nov, 2020
本文提出了一种自我注意力归因方法,通过对 BERT 等模型进行广泛的研究,发现这种方法能够用于识别重要的注意力头,构建注意力树,揭示变压器内的分层交互,以及可用作敌对模式实现非定向攻击。
Apr, 2020
本研究提出一种简单方法,通过训练模型生成欺骗性的注意力掩码,从而质疑注意机制的可靠性,因为通过操纵注意权重,即使我们可以证明模型仍然依赖这些特征来驱动预测,我们的方法会减少指定的不允许的标记被分配的总权重。通过人类研究,我们展示了我们操作注意力的解释会欺骗人们认为偏见的模型的预测不依赖性别,从而对注意力在公平性和问责制的算法审计工具上的可靠性产生怀疑。
Sep, 2019