打开西门子：深入探讨 BERT 的语言知识

Jun, 2019

打开西门子：深入探讨 BERT 的语言知识

Open Sesame: Getting Inside BERT's Linguistic Knowledge

Yongjie Lin, Yi Chern Tan, Robert Frank

TL;DR本文探讨了BERT对句法层次结构、位置信息以及自注意力向量的编码，并发现BERT在较低的层次上良好地编码了位置信息，在较高的层次上则更倾向于编码层次结构，这表明BERT的表示法确实模拟了语言的一些层次结构，并且对于处理反身代词的普遍敏感性没有人类大脑那么强。

Abstract

How and to what extent does bert encode syntactically-sensitive hierarchical information or positionally-sensitive linear information? Recent work has shown that contextual representations like bert perform well

发现论文，激发创造

可视化和测量 BERT 的几何形状

本文描述了一种特别有效的模型BERT，它能够通过从语义和句法子空间中提取一般有用的语言特征来代表语言信息，同时还探讨了注意力矩阵和单词嵌入中的句法表示，并提出了一种数学证明来解释这些表示的几何形态。

Jun, 2019

BERT模型看什么？BERT Attention机制分析

本文通过分析 BERT 的注意力机制及其输出结果，提出了新的方法并应用于其内部结构的探究，证明 Bert 的 attention heads 明显与语言的语法和指代有关，其中某些 attention heads 可以高精度地表示动词的直接宾语、名词的限定词和介词的宾语。

Jun, 2019

信息论探针用于语言结构探索

本文介绍了一种基于信息理论的方法来评估神经网络对自然语言处理的理解程度，即探针，发现在评估中应选择表现最好的模型，即使它是更复杂的模型，以获得更紧密的估计和更多的语言信息。作者在多种语言数据集上进行实验验证了这种方法的有效性。

Apr, 2020

中文BERT是否编码单词结构？

本文探究了中文BERT在注意力权重分布统计和探测任务方面的表现，发现其捕捉了单词信息，其中单词级别特征主要集中在中间表示层，在文本理解等下游任务中，词特征以不同的方式被应用。

Oct, 2020

注意力可以反映句法结构(如果你允许)

本研究通过对18种语言进行多语言BERT 的解码实验，以测试依存句法是否反映在注意力模式中的普适性，并归纳出单一注意力头可以以上线准确率解码全树。尝试通过对mBERT 进行监督解析目标的微调，结果表明注意力模式可以代表语言结构。

Jan, 2021

深度主体性：多语言BERT中的高阶语法特征

本文探讨了Multilingual BERT（mBERT）如何编码文法，并研究了不同语言编码空间之间如何表现形态句法对齐的高级文法特征，结果表明mBERT表示受到不在任何一个输入句子中表现的高级文法特征的影响，而语法特征通过可靠的语义和话语因素进行编码，在更高层次上提供了文法特征在情境嵌入空间中如何表现的洞见。

Jan, 2021

探索BERT Token表达在句子探测结果中的作用

本文从BERT的表示空间出发，通过一系列探针任务和属性方法探究模型的语言学知识表达方式，发现BERT倾向于对语法和语义异常进行编码，并能够明显地区分语法数和时态子空间。

Apr, 2021

BERT是否真的赞同？对语法任务上词汇依赖的精细分析

该研究评估了基于Transformer的神经语言模型在语法识别任务中的一般性能力，特别是在处理句子结构和词汇形态方面的通用表现，描述了在有吸引因素的情况下，词汇独立的句法泛化失败的情况。

Apr, 2022

多语言BERT中的语序类型学：以从属从句检测为例的案例研究

通过比较BERT模型在跨语言子句检测任务中的性能展示，它对于在不同语言中学习句法抽象的能力和限制，同时显示出该任务的简单部分容易获得成功，但更难的部分需要更多时间。此外，该任务的性能主要受词序效应的支配，与SVO/VSO/SOV类别相似。

May, 2022

BERT模型中的注意力分数对GLUE基准上的句法和语义任务中的词类意识研究

本研究通过对BERT模型进行细调过程中，考察词汇类别对注意力分数的影响，进一步验证了重点语义信息的下游任务中注意力分数主要集中在内容词上的假设，并揭示了BERT层对特定词汇类别具有一致偏好的存在。

Mar, 2024