分析 Transformer 语言模型中的注意力结构

ACLJun, 2019

分析 Transformer 语言模型中的注意力结构

Analyzing the Structure of Attention in a Transformer Language Model

Jesse Vig, Yonatan Belinkov

TL;DR本文研究了基于注意力机制的 Transformer 模型在自然语言处理中的应用，通过对 GPT-2 模型的注意力结构的可视化和大规模语料库的分析，发现模型在不同层次区分不同词性并在中间层次最强烈地关注依赖关系，最深层次关注最远程的联系，并抽取了展现特定关注头目标的范例句子。

Abstract

The transformer is a fully attention-based alternative to recurrent networks that has achieved state-of-the-art results across a range of nlp

transformer attention nlp syntax gpt-2

发现论文，激发创造

注意力可以反映句法结构 (如果你允许)

本研究通过对 18 种语言进行多语言 BERT 的解码实验，以测试依存句法是否反映在注意力模式中的普适性，并归纳出单一注意力头可以以上线准确率解码全树。尝试通过对 mBERT 进行监督解析目标的微调，结果表明注意力模式可以代表语言结构。

Jan, 2021

Transformer 模型中的注意力的多尺度可视化

通过使用注意力机制，Transformer 模型不仅在性能上有所提升，同时还可通过可视化工具展示模型如何赋权于不同的输入元素，从而实现模型的解释和解读，本文提出了一种开源的基于多尺度可视化注意力机制的工具，并在 BERT 和 OpenAI GPT-2 上进行了演示，包括检测模型偏差、定位相关注意力头和链接神经元到模型行为等三个应用案例。

Jun, 2019

关注实体以获得更好的文本理解

在自然语言处理中，通过将共指信息作为辅助监督注入到目前现有的预训练模型中，能够提升模型在需要进行复杂和长距离推理的任务中的表现，从而超过目前最大的 GPT-2 模型，同时仅含有一小部分的参数。

Nov, 2019

利用语法感知的局部注意力提升 BERT 性能

本文提出一种基于句法结构的局部语义注意力机制，将其与 BERT 等预训练语言模型相结合，提高对句子中句法相关词的关注度，在单句分类和序列标注等任务中实现了一致性增益。

Dec, 2020

转换器语言模型中的合理性处理：关注 GPT 中 Attention Heads 的作用

本文旨在探索 Transformer 语言模型如何处理语义知识，尤其是名词 - 动词关系的合理性。首先，作者证明了 GPT2 在合理性处理方面与人类相比具有更高的相似度；其次，作者深入研究了 GPT2 中合理性知识如何体现在注意力头中，以及这些头对 GPT2 的合理性处理能力的因果影响。通过多个实验，发现：i) GPT2 有多个注意力头能够检测具有合理名词 - 动词关系；ii) 这些头共同对 Transformer 处理合理性的能力有贡献，尽管贡献的程度不同；iii) 注意力头在检测合理性方面的个体表现不一定与它们对 GPT2 的合理性处理能力的贡献程度相关。

Oct, 2023

解读 Transformer 的注意力动态记忆与可视化 GPT 的语义信息流

通过对 transformer-based 语言模型的 attention 头和 memory values 进行解释，我们可以将 GPT 的前向传递可视化为交互式流图，从而发现模型输出结果的原因和 LM 组件在模型中的作用。

May, 2023

神经序列模型中自注意力的理论限制

本文研究了自注意力在建模形式语言方面的计算能力，发现其在处理分层结构时存在强烈的理论限制，但在自然语言处理方面表现卓越。

Jun, 2019

BERT 模型看什么？BERT Attention 机制分析

本文通过分析 BERT 的注意力机制及其输出结果，提出了新的方法并应用于其内部结构的探究，证明 Bert 的 attention heads 明显与语言的语法和指代有关，其中某些 attention heads 可以高精度地表示动词的直接宾语、名词的限定词和介词的宾语。

Jun, 2019

语言模型的时间注意力

该研究提出了一种时间感知的自注意力机制 —— 时间注意力，用于任何基于变形器模型的预训练语言模型中，以捕捉上下文中的时间信息，并应用于语义变化检测任务，在三个不同语言的数据集上取得最先进的结果。

Feb, 2022

BERT 与生物学相遇：解析蛋白质语言模型中的注意力

本研究通过注意力机制探索分析蛋白质 Transformer 模型，展示其捕捉蛋白质折叠结构，定位蛋白质功能性区域，以及随着层数增加逐渐关注复杂生物物理特性等行为，结果表明三种 Transformer 架构对此表现一致，并提供蛋白质结构和注意力之间的三维可视化交互。

Jun, 2020