探索BERT Token表达在句子探测结果中的作用
本文探讨了BERT对句法层次结构、位置信息以及自注意力向量的编码,并发现BERT在较低的层次上良好地编码了位置信息,在较高的层次上则更倾向于编码层次结构,这表明BERT的表示法确实模拟了语言的一些层次结构,并且对于处理反身代词的普遍敏感性没有人类大脑那么强。
Jun, 2019
本文通过分析 BERT 的注意力机制及其输出结果,提出了新的方法并应用于其内部结构的探究,证明 Bert 的 attention heads 明显与语言的语法和指代有关,其中某些 attention heads 可以高精度地表示动词的直接宾语、名词的限定词和介词的宾语。
Jun, 2019
我们对BERT的隐藏状态进行逐层分析,揭示了这些状态所包含的有价值的信息,包括QA任务fine-tuned的模型如何转换令牌向量以找到正确的答案。通过应用一组用于揭示每个表示层中存储信息的一般和QA特定探测任务,我们的分析显示BERT的转换经历了与传统pipeline任务相关的阶段,且细微调整对模型的语意能力影响不大,即使在早期层也可以识别出预测错误。
Sep, 2019
该论文系统地研究了面向通用文本表示的分层BERT激活,以了解其捕获的语言信息以及它们在不同任务之间的可转移性。在下游和探测任务中,句子级别的嵌入与两个最先进的模型进行了比较,而段落级别的嵌入则在四个问答(QA)数据集上进行了学习排名问题设置的评估。结果表明,将预训练的BERT模型微调于自然语言推断数据上可以显著提高嵌入的质量。
Oct, 2019
本文介绍了一种基于信息理论的方法来评估神经网络对自然语言处理的理解程度,即探针,发现在评估中应选择表现最好的模型,即使它是更复杂的模型,以获得更紧密的估计和更多的语言信息。作者在多种语言数据集上进行实验验证了这种方法的有效性。
Apr, 2020
通过无需直接监督或引入额外参数的无参探测技术,我们提出了一种分析预训练语言模型的新方法,实验表明该方法所得到的句法树和依存结构与人类设计的依赖模式相兼容或甚至更优,在情感分类任务中能显著提高分类效果。
Apr, 2020
本文探讨了使用预训练的上下文相关表示的细调方法对词嵌入空间的影响,并使用两种探测技术分析英语 BERT 系列的细调。作者得出了一些结论,其中包括细调会通过增加相关标签的示例之间的距离来影响分类性能,还发现了一个对“细调总是提高性能”的普遍看法的例外,并且发现细调不会引入任意更改,而是在保留数据点的原始空间结构的同时将其调整到下游任务。
Jun, 2021
该研究旨在通过贝叶斯框架度量文本中的归纳偏差量,并通过对Contextual embeddings的探究,比较了fastText和BERT在不同任务上的性能表现差异。
Oct, 2021
通过对BERT模型进行探究研究,本文发现利用线性编码能够提升模型在数字任务上的性能,同时发现了名词和动词之间的语法数有不同的编码方式,并且还找出了传递名词语法数信息到其头部动词的模型层数。
Apr, 2022