分析特洛伊 BERT 模型的多头注意力

Jun, 2024

分析特洛伊 BERT 模型的多头注意力

Analyzing Multi-Head Attention on Trojan BERT Models

Jingwei Wang

TL;DR该研究探讨了多头注意力在 Transformer 模型中的行为，特别关注在情感分析背景下良性和特洛伊模型之间的差异。特洛伊攻击导致模型在干净输入上表现正常，但在包含预定义触发器的输入上出现误分类。我们对特洛伊和良性模型中的注意力头函数进行了表征，识别出特定的 “特洛伊” 头部，并分析了它们的行为。

Abstract

This project investigates the behavior of multi-head attention in Transformer models, specifically focusing on the differences between benign and trojan models in the context of sentiment analysis. →

multi-head attention transformer models trojan attacks sentiment analysis attention head functions

发现论文，激发创造

木马 Bert 中的关注异常研究

本文提出了一种基于 transformer 注意机制的 Trojan 检测器，探究了 Trojan BERT 模型的机制，发现了 Trojan 模型注视焦点漂移的行为。

May, 2022

特洛伊变压器中的注意力劫持

本文针对 Transformer 模型，研究了典型的 Trojan attacks，提出了注意力劫持模式，并从 NLP 和 CV 两个领域进行了验证，同时提出了 Attention-Hijacking Trojan Detector (AHTD) 来区分恶意软件和正常模型。

Aug, 2022

增强注意力的背门攻击对基于 BERT 模型的影响

通过直接操纵注意力模式，我们提出了一种新颖的特洛伊注意力损失（TAL），以增强特洛伊行为，并提高攻击成功率和污染率，不仅适用于传统的脏标签攻击，还适用于更具挑战性的干净标签攻击。

Oct, 2023

Heads 假设：一种统一的统计方法，用于理解 BERT 中的多头注意力

提出一种新的方法，通过假设检验来形式化简单而有效的分数，从而分类定位 transformer-based model 的 attention heads 中的不同角色，可以更准确地回答一些有关 BERT 模型的问题，如多种功能角色在同一 attention head 中的共存，attention heads 在不同层之间的分布以及特定 NLP 任务对这些功能角色的影响。

Jan, 2021

Transformer-Based 语言模型注意力头中的偏见分析

通过对注意力头的偏见分析框架，发现预训练语言模型中存在有偏头部，这有助于对模型公正性进行评估和指导有效减轻策略的开发。对 BERT 模型和 GPT 模型的性别和种族偏见进行了广泛的实验研究，进一步理解了预训练语言模型中的偏见行为。

Nov, 2023

BERT 的视野有多远：基于距离的聚类和注意力分析

通过无监督聚类，我们明确将注意力热图聚类为显著不同的模式，并进一步通过分析研究了它们的对应功能，此外，我们提出的特征可以用于解释和校准 Transformer 模型中的不同注意头。

Nov, 2020

使用自适应多头注意力的 Transformer 情感分析

提出了一种基于注意机制的新型框架，用于识别电影评论文档的情感。通过自适应多头注意力架构 (AdaptAttn) 根据句子长度变化注意头的数量，在 Stanford 大型电影评论数据集上的实验结果显示，我们的模型的 F1 得分与基准模型相当。

Oct, 2023

十六个头真的比一个好吗？

本研究表明，即使使用多重头部训练模型，实质上也可以在测试时间删除大量的注意力头而不会对性能产生显著影响，可以通过剪枝算法进一步降低模型的复杂度、提高速度和内存效率，并提供关于哪些模型部分更依赖于多头注意力的初步证据，并发现训练动态在多头注意力带来的收益中扮演着重要角色。

May, 2019

BERT 模型看什么？BERT Attention 机制分析

本文通过分析 BERT 的注意力机制及其输出结果，提出了新的方法并应用于其内部结构的探究，证明 Bert 的 attention heads 明显与语言的语法和指代有关，其中某些 attention heads 可以高精度地表示动词的直接宾语、名词的限定词和介词的宾语。

Jun, 2019

拓扑 BERT：将注意力转化为拓扑以用于自然语言处理

本研究介绍了一种使用拓扑数据分析的文本分类器。我们使用 BERT 的关注映射转换为关注图作为该分类器的唯一输入。该模型可以解决区分邮件的垃圾邮件和普通邮件等任务，并在某些任务上表现出优于 BERT 基线的性能。此外，我们提出了一种新的方法来减少涉及拓扑分类器的 BERT 注意力头的数量。我们的工作还显示，拓扑模型在对抗性攻击方面表现出更高的鲁棒性，这一特性在减少注意力头的过程中保持不变。据我们所知，这项工作是在 NLP 领域中首次使用基于拓扑的模型来应对对抗性攻击。

Jun, 2022