BERT 对韵律学习了什么？

Apr, 2023

What does BERT learn about prosody?

Sofoklis Kakouros, Johannah O'Mahony

TL;DR本研究采用了一系列实验，探究了 BERT 模型在不同层次上的语言表征，结果显示它主要依赖句法和语义信息来捕捉音调重音的相关信息。

Abstract

language models have become nearly ubiquitous in natural language processing applications achieving state-of-the-art results in many tasks including →

language models natural language processing prosody bert syntactic and semantic information

发现论文，激发创造

BERTnesia: 探究 BERT 中知识的捕捉和遗忘

这篇文章探讨了 BERT 模型如何从它的参数化内存中获取关系知识，并使用知识库补全任务在 BERT 的每一层中进行了测试。作者发现，中间层对于 BERT 模型中的总知识量贡献了很大的部分，同时发现 fine-tune 时，与训练数据和训练目标有关。而容量和事实密度是学习事实的关键。

Jun, 2021

探索 BERT Token 表达在句子探测结果中的作用

本文从 BERT 的表示空间出发，通过一系列探针任务和属性方法探究模型的语言学知识表达方式，发现 BERT 倾向于对语法和语义异常进行编码，并能够明显地区分语法数和时态子空间。

Apr, 2021

打开西门子：深入探讨 BERT 的语言知识

本文探讨了 BERT 对句法层次结构、位置信息以及自注意力向量的编码，并发现 BERT 在较低的层次上良好地编码了位置信息，在较高的层次上则更倾向于编码层次结构，这表明 BERT 的表示法确实模拟了语言的一些层次结构，并且对于处理反身代词的普遍敏感性没有人类大脑那么强。

Jun, 2019

神经语言模型的语言学分析

本文探究了神经语言模型（NLM）在调整细节后所学习到的语言知识及其对于多种分类问题的预测影响，结合多重探测任务发现，尽管 BERT 能够编码多种语言特征，但在特定的下游任务训练后往往导致相关信息丢失，而 BERT 对于不同语言属性的编码能力将正面影响它的预测能力。

Oct, 2020

BERT 上语法信息编码的演进

本文分析了 BERT 在六种不同的任务中精细调整过程中所嵌入的句法树随着调整而演变的情况，结果表明编码的语法信息在不同任务的精细调整过程中被遗忘（词性标注）、强化（依存句法和组成成句）或保留（语义相关任务）。

Jan, 2021

信息论探针用于语言结构探索

本文介绍了一种基于信息理论的方法来评估神经网络对自然语言处理的理解程度，即探针，发现在评估中应选择表现最好的模型，即使它是更复杂的模型，以获得更紧密的估计和更多的语言信息。作者在多种语言数据集上进行实验验证了这种方法的有效性。

Apr, 2020

不同模型在语言知识定位方面并非都一样：对 BERToid 表示的逐层探索

本研究探究了不同的预训练模型（BERT、ELECTRA 和 XLNet）对语言信息编码的差异性，并表明基于深度的评估策略往往存在误导性，我们使用了一种信息论探究方法以获取更为可靠和有用的结论。

Sep, 2021

预训练语言模型的话语探测

本文使用七种预训练语言模型，运用七种篇章探测任务，将研究重点从句子级别上升到文档级别上，最终发现 BART 是捕获篇章信息能力最好的模型，但只有其编码器部分表现最佳，BERT 作为基准模型也出奇地表现良好，并且不同层次的模型对篇章信息的刻画效果，以及模型之间的差距巨大。

Apr, 2021

多语言 BERT 模型的词形句法探测

本研究介绍了一个广泛的多语言探测词形信息数据集，利用预训练变形金刚模型（mBERT 和 XLM-RoBERTa），并应用两种方法确定输入中区别信息的位置以实现强大的性能。其中最显著的发现是前缀上下文持有比后缀上下文更多相关预测信息。

Jun, 2023

从声音到语法：探究口语语言模型的句法

研究了自我监督和视觉基础的多个口语模型对句法的编码方式，证明句法结构被最明显地捕获在中间层，并在参数较多的模型中表现得更加明显。

May, 2023