木马 Bert 中的关注异常研究

ACLMay, 2022

A Study of the Attention Abnormality in Trojaned BERTs

Weimin Lyu, Songzhu Zheng, Tengfei Ma, Chao Chen

TL;DR本文提出了一种基于 transformer 注意机制的 Trojan 检测器，探究了 Trojan BERT 模型的机制，发现了 Trojan 模型注视焦点漂移的行为。

Abstract

trojan attacks raise serious security concerns. In this paper, we investigate the underlying mechanism of Trojaned bert models. We observe the attention focus drifting behavior of Trojaned models, i.e., when enco

trojan attacks bert models attention focus trojan detector transformer's attention

发现论文，激发创造

分析特洛伊 BERT 模型的多头注意力

该研究探讨了多头注意力在 Transformer 模型中的行为，特别关注在情感分析背景下良性和特洛伊模型之间的差异。特洛伊攻击导致模型在干净输入上表现正常，但在包含预定义触发器的输入上出现误分类。我们对特洛伊和良性模型中的注意力头函数进行了表征，识别出特定的 “特洛伊” 头部，并分析了它们的行为。

Jun, 2024

特洛伊变压器中的注意力劫持

本文针对 Transformer 模型，研究了典型的 Trojan attacks，提出了注意力劫持模式，并从 NLP 和 CV 两个领域进行了验证，同时提出了 Attention-Hijacking Trojan Detector (AHTD) 来区分恶意软件和正常模型。

Aug, 2022

增强注意力的背门攻击对基于 BERT 模型的影响

通过直接操纵注意力模式，我们提出了一种新颖的特洛伊注意力损失（TAL），以增强特洛伊行为，并提高攻击成功率和污染率，不仅适用于传统的脏标签攻击，还适用于更具挑战性的干净标签攻击。

Oct, 2023

利用动态注意力提升基于 Transformer 的大型语言模型的鲁棒性

通过提出一种名为动态注意力的新方法，我们设计了一个针对转换器架构的机制来增强模型本身对各种对抗性攻击的鲁棒性，从而显著减轻对抗性攻击的影响，并将其与其他防御方法（如对抗性训练）相结合以进一步增强模型的鲁棒性。

Nov, 2023

BERT 模型看什么？BERT Attention 机制分析

本文通过分析 BERT 的注意力机制及其输出结果，提出了新的方法并应用于其内部结构的探究，证明 Bert 的 attention heads 明显与语言的语法和指代有关，其中某些 attention heads 可以高精度地表示动词的直接宾语、名词的限定词和介词的宾语。

Jun, 2019

揭示 BERT 的黑暗秘密

本研究基于自注意力机制进行 BERT 模型的定量及定性分析，发现模型的超参数化导致自注意力机制复用率高，不同自注意力机制对不同 NLP 任务影响不同，针对性关闭某些自注意力机制可以提升模型性能。

Aug, 2019

拓扑 BERT：将注意力转化为拓扑以用于自然语言处理

本研究介绍了一种使用拓扑数据分析的文本分类器。我们使用 BERT 的关注映射转换为关注图作为该分类器的唯一输入。该模型可以解决区分邮件的垃圾邮件和普通邮件等任务，并在某些任务上表现出优于 BERT 基线的性能。此外，我们提出了一种新的方法来减少涉及拓扑分类器的 BERT 注意力头的数量。我们的工作还显示，拓扑模型在对抗性攻击方面表现出更高的鲁棒性，这一特性在减少注意力头的过程中保持不变。据我们所知，这项工作是在 NLP 领域中首次使用基于拓扑的模型来应对对抗性攻击。

Jun, 2022

BERT 的视野有多远：基于距离的聚类和注意力分析

通过无监督聚类，我们明确将注意力热图聚类为显著不同的模式，并进一步通过分析研究了它们的对应功能，此外，我们提出的特征可以用于解释和校准 Transformer 模型中的不同注意头。

Nov, 2020

自注意力归因：解释 Transformer 内部的信息交互

本文提出了一种自我注意力归因方法，通过对 BERT 等模型进行广泛的研究，发现这种方法能够用于识别重要的注意力头，构建注意力树，揭示变压器内的分层交互，以及可用作敌对模式实现非定向攻击。

Apr, 2020

基于注意力解释的欺骗学习

本研究提出一种简单方法，通过训练模型生成欺骗性的注意力掩码，从而质疑注意机制的可靠性，因为通过操纵注意权重，即使我们可以证明模型仍然依赖这些特征来驱动预测，我们的方法会减少指定的不允许的标记被分配的总权重。通过人类研究，我们展示了我们操作注意力的解释会欺骗人们认为偏见的模型的预测不依赖性别，从而对注意力在公平性和问责制的算法审计工具上的可靠性产生怀疑。

Sep, 2019