探索BERT Token表达在句子探测结果中的作用

Apr, 2021

探索BERT Token表达在句子探测结果中的作用

Exploring the Role of BERT Token Representations to Explain Sentence Probing Results

Hosein Mohebbi, Ali Modarressi, Mohammad Taher Pilehvar

TL;DR本文从BERT的表示空间出发，通过一系列探针任务和属性方法探究模型的语言学知识表达方式，发现BERT倾向于对语法和语义异常进行编码，并能够明显地区分语法数和时态子空间。

Abstract

Several studies have been carried out on revealing linguistic features captured by bert. This is usually achieved by training a diagnostic classifier on the representations obtained from different layers of bert.

发现论文，激发创造

探究上下文词向量的句子结构学习

研究比较四种最近的模型对句子结构的编码情况，发现语言模型和翻译模型训练出的模型对句法现象具有强大的表现，但对语义任务的改进相对较小。

May, 2019

打开西门子：深入探讨 BERT 的语言知识

本文探讨了BERT对句法层次结构、位置信息以及自注意力向量的编码，并发现BERT在较低的层次上良好地编码了位置信息，在较高的层次上则更倾向于编码层次结构，这表明BERT的表示法确实模拟了语言的一些层次结构，并且对于处理反身代词的普遍敏感性没有人类大脑那么强。

Jun, 2019

BERT模型看什么？BERT Attention机制分析

本文通过分析 BERT 的注意力机制及其输出结果，提出了新的方法并应用于其内部结构的探究，证明 Bert 的 attention heads 明显与语言的语法和指代有关，其中某些 attention heads 可以高精度地表示动词的直接宾语、名词的限定词和介词的宾语。

Jun, 2019

BERT是如何回答问题的：对Transformer表示进行逐层分析

我们对BERT的隐藏状态进行逐层分析，揭示了这些状态所包含的有价值的信息，包括QA任务fine-tuned的模型如何转换令牌向量以找到正确的答案。通过应用一组用于揭示每个表示层中存储信息的一般和QA特定探测任务，我们的分析显示BERT的转换经历了与传统pipeline任务相关的阶段，且细微调整对模型的语意能力影响不大，即使在早期层也可以识别出预测错误。

Sep, 2019

BERT的通用文本表示：一项实证研究

该论文系统地研究了面向通用文本表示的分层BERT激活，以了解其捕获的语言信息以及它们在不同任务之间的可转移性。在下游和探测任务中，句子级别的嵌入与两个最先进的模型进行了比较，而段落级别的嵌入则在四个问答（QA）数据集上进行了学习排名问题设置的评估。结果表明，将预训练的BERT模型微调于自然语言推断数据上可以显著提高嵌入的质量。

Oct, 2019

信息论探针用于语言结构探索

本文介绍了一种基于信息理论的方法来评估神经网络对自然语言处理的理解程度，即探针，发现在评估中应选择表现最好的模型，即使它是更复杂的模型，以获得更紧密的估计和更多的语言信息。作者在多种语言数据集上进行实验验证了这种方法的有效性。

Apr, 2020

扰动掩蔽：一种无需参数的探测BERT以进行分析和解释的方法

通过无需直接监督或引入额外参数的无参探测技术，我们提出了一种分析预训练语言模型的新方法，实验表明该方法所得到的句法树和依存结构与人类设计的依赖模式相兼容或甚至更优，在情感分类任务中能显著提高分类效果。

Apr, 2020

深入探究微调如何改变BERT

本文探讨了使用预训练的上下文相关表示的细调方法对词嵌入空间的影响，并使用两种探测技术分析英语 BERT 系列的细调。作者得出了一些结论，其中包括细调会通过增加相关标签的示例之间的距离来影响分类性能，还发现了一个对“细调总是提高性能”的普遍看法的例外，并且发现细调不会引入任意更改，而是在保留数据点的原始空间结构的同时将其调整到下游任务。

Jun, 2021

探究作为归纳偏好的定量化

该研究旨在通过贝叶斯框架度量文本中的归纳偏差量，并通过对Contextual embeddings的探究，比较了fastText和BERT在不同任务上的性能表现差异。

Oct, 2021

探究语法数的使用

通过对BERT模型进行探究研究，本文发现利用线性编码能够提升模型在数字任务上的性能，同时发现了名词和动词之间的语法数有不同的编码方式，并且还找出了传递名词语法数信息到其头部动词的模型层数。

Apr, 2022