分析特洛伊 BERT 模型的多头注意力
本文提出了一种基于 transformer 注意机制的 Trojan 检测器,探究了 Trojan BERT 模型的机制,发现了 Trojan 模型注视焦点漂移的行为。
May, 2022
本文针对 Transformer 模型,研究了典型的 Trojan attacks,提出了注意力劫持模式,并从 NLP 和 CV 两个领域进行了验证,同时提出了 Attention-Hijacking Trojan Detector (AHTD) 来区分恶意软件和正常模型。
Aug, 2022
通过直接操纵注意力模式,我们提出了一种新颖的特洛伊注意力损失(TAL),以增强特洛伊行为,并提高攻击成功率和污染率,不仅适用于传统的脏标签攻击,还适用于更具挑战性的干净标签攻击。
Oct, 2023
提出一种新的方法,通过假设检验来形式化简单而有效的分数,从而分类定位 transformer-based model 的 attention heads 中的不同角色,可以更准确地回答一些有关 BERT 模型的问题,如多种功能角色在同一 attention head 中的共存,attention heads 在不同层之间的分布以及特定 NLP 任务对这些功能角色的影响。
Jan, 2021
通过对注意力头的偏见分析框架,发现预训练语言模型中存在有偏头部,这有助于对模型公正性进行评估和指导有效减轻策略的开发。对 BERT 模型和 GPT 模型的性别和种族偏见进行了广泛的实验研究,进一步理解了预训练语言模型中的偏见行为。
Nov, 2023
通过无监督聚类,我们明确将注意力热图聚类为显著不同的模式,并进一步通过分析研究了它们的对应功能,此外,我们提出的特征可以用于解释和校准 Transformer 模型中的不同注意头。
Nov, 2020
提出了一种基于注意机制的新型框架,用于识别电影评论文档的情感。通过自适应多头注意力架构 (AdaptAttn) 根据句子长度变化注意头的数量,在 Stanford 大型电影评论数据集上的实验结果显示,我们的模型的 F1 得分与基准模型相当。
Oct, 2023
本研究表明,即使使用多重头部训练模型,实质上也可以在测试时间删除大量的注意力头而不会对性能产生显著影响,可以通过剪枝算法进一步降低模型的复杂度、提高速度和内存效率,并提供关于哪些模型部分更依赖于多头注意力的初步证据,并发现训练动态在多头注意力带来的收益中扮演着重要角色。
May, 2019
本文通过分析 BERT 的注意力机制及其输出结果,提出了新的方法并应用于其内部结构的探究,证明 Bert 的 attention heads 明显与语言的语法和指代有关,其中某些 attention heads 可以高精度地表示动词的直接宾语、名词的限定词和介词的宾语。
Jun, 2019
本研究介绍了一种使用拓扑数据分析的文本分类器。我们使用 BERT 的关注映射转换为关注图作为该分类器的唯一输入。该模型可以解决区分邮件的垃圾邮件和普通邮件等任务,并在某些任务上表现出优于 BERT 基线的性能。此外,我们提出了一种新的方法来减少涉及拓扑分类器的 BERT 注意力头的数量。我们的工作还显示,拓扑模型在对抗性攻击方面表现出更高的鲁棒性,这一特性在减少注意力头的过程中保持不变。据我们所知,这项工作是在 NLP 领域中首次使用基于拓扑的模型来应对对抗性攻击。
Jun, 2022