打开西门子:深入探讨 BERT 的语言知识
本文描述了一种特别有效的模型BERT,它能够通过从语义和句法子空间中提取一般有用的语言特征来代表语言信息,同时还探讨了注意力矩阵和单词嵌入中的句法表示,并提出了一种数学证明来解释这些表示的几何形态。
Jun, 2019
本文通过分析 BERT 的注意力机制及其输出结果,提出了新的方法并应用于其内部结构的探究,证明 Bert 的 attention heads 明显与语言的语法和指代有关,其中某些 attention heads 可以高精度地表示动词的直接宾语、名词的限定词和介词的宾语。
Jun, 2019
本文介绍了一种基于信息理论的方法来评估神经网络对自然语言处理的理解程度,即探针,发现在评估中应选择表现最好的模型,即使它是更复杂的模型,以获得更紧密的估计和更多的语言信息。作者在多种语言数据集上进行实验验证了这种方法的有效性。
Apr, 2020
本文探究了中文BERT在注意力权重分布统计和探测任务方面的表现,发现其捕捉了单词信息,其中单词级别特征主要集中在中间表示层,在文本理解等下游任务中,词特征以不同的方式被应用。
Oct, 2020
本研究通过对18种语言进行多语言BERT 的解码实验,以测试依存句法是否反映在注意力模式中的普适性,并归纳出单一注意力头可以以上线准确率解码全树。尝试通过对mBERT 进行监督解析目标的微调,结果表明注意力模式可以代表语言结构。
Jan, 2021
本文探讨了Multilingual BERT(mBERT)如何编码文法,并研究了不同语言编码空间之间如何表现形态句法对齐的高级文法特征,结果表明mBERT表示受到不在任何一个输入句子中表现的高级文法特征的影响,而语法特征通过可靠的语义和话语因素进行编码,在更高层次上提供了文法特征在情境嵌入空间中如何表现的洞见。
Jan, 2021
本文从BERT的表示空间出发,通过一系列探针任务和属性方法探究模型的语言学知识表达方式,发现BERT倾向于对语法和语义异常进行编码,并能够明显地区分语法数和时态子空间。
Apr, 2021
该研究评估了基于Transformer的神经语言模型在语法识别任务中的一般性能力,特别是在处理句子结构和词汇形态方面的通用表现,描述了在有吸引因素的情况下,词汇独立的句法泛化失败的情况。
Apr, 2022
通过比较BERT模型在跨语言子句检测任务中的性能展示,它对于在不同语言中学习句法抽象的能力和限制,同时显示出该任务的简单部分容易获得成功,但更难的部分需要更多时间。此外,该任务的性能主要受词序效应的支配,与SVO/VSO/SOV类别相似。
May, 2022
本研究通过对BERT模型进行细调过程中,考察词汇类别对注意力分数的影响,进一步验证了重点语义信息的下游任务中注意力分数主要集中在内容词上的假设,并揭示了BERT层对特定词汇类别具有一致偏好的存在。
Mar, 2024