分析 Transformer 语言模型中的注意力结构
本研究通过对 18 种语言进行多语言 BERT 的解码实验,以测试依存句法是否反映在注意力模式中的普适性,并归纳出单一注意力头可以以上线准确率解码全树。尝试通过对 mBERT 进行监督解析目标的微调,结果表明注意力模式可以代表语言结构。
Jan, 2021
通过使用注意力机制,Transformer 模型不仅在性能上有所提升,同时还可通过可视化工具展示模型如何赋权于不同的输入元素,从而实现模型的解释和解读,本文提出了一种开源的基于多尺度可视化注意力机制的工具,并在 BERT 和 OpenAI GPT-2 上进行了演示,包括检测模型偏差、定位相关注意力头和链接神经元到模型行为等三个应用案例。
Jun, 2019
在自然语言处理中,通过将共指信息作为辅助监督注入到目前现有的预训练模型中,能够提升模型在需要进行复杂和长距离推理的任务中的表现,从而超过目前最大的 GPT-2 模型,同时仅含有一小部分的参数。
Nov, 2019
本文提出一种基于句法结构的局部语义注意力机制,将其与 BERT 等预训练语言模型相结合,提高对句子中句法相关词的关注度,在单句分类和序列标注等任务中实现了一致性增益。
Dec, 2020
本文旨在探索 Transformer 语言模型如何处理语义知识,尤其是名词 - 动词关系的合理性。首先,作者证明了 GPT2 在合理性处理方面与人类相比具有更高的相似度;其次,作者深入研究了 GPT2 中合理性知识如何体现在注意力头中,以及这些头对 GPT2 的合理性处理能力的因果影响。通过多个实验,发现:i) GPT2 有多个注意力头能够检测具有合理名词 - 动词关系;ii) 这些头共同对 Transformer 处理合理性的能力有贡献,尽管贡献的程度不同;iii) 注意力头在检测合理性方面的个体表现不一定与它们对 GPT2 的合理性处理能力的贡献程度相关。
Oct, 2023
通过对 transformer-based 语言模型的 attention 头和 memory values 进行解释,我们可以将 GPT 的前向传递可视化为交互式流图,从而发现模型输出结果的原因和 LM 组件在模型中的作用。
May, 2023
本文通过分析 BERT 的注意力机制及其输出结果,提出了新的方法并应用于其内部结构的探究,证明 Bert 的 attention heads 明显与语言的语法和指代有关,其中某些 attention heads 可以高精度地表示动词的直接宾语、名词的限定词和介词的宾语。
Jun, 2019
该研究提出了一种时间感知的自注意力机制 —— 时间注意力,用于任何基于变形器模型的预训练语言模型中,以捕捉上下文中的时间信息,并应用于语义变化检测任务,在三个不同语言的数据集上取得最先进的结果。
Feb, 2022
本研究通过注意力机制探索分析蛋白质 Transformer 模型,展示其捕捉蛋白质折叠结构,定位蛋白质功能性区域,以及随着层数增加逐渐关注复杂生物物理特性等行为,结果表明三种 Transformer 架构对此表现一致,并提供蛋白质结构和注意力之间的三维可视化交互。
Jun, 2020