BERT 对韵律学习了什么?
这篇文章探讨了 BERT 模型如何从它的参数化内存中获取关系知识,并使用知识库补全任务在 BERT 的每一层中进行了测试。作者发现,中间层对于 BERT 模型中的总知识量贡献了很大的部分,同时发现 fine-tune 时,与训练数据和训练目标有关。而容量和事实密度是学习事实的关键。
Jun, 2021
本文从 BERT 的表示空间出发,通过一系列探针任务和属性方法探究模型的语言学知识表达方式,发现 BERT 倾向于对语法和语义异常进行编码,并能够明显地区分语法数和时态子空间。
Apr, 2021
本文探讨了 BERT 对句法层次结构、位置信息以及自注意力向量的编码,并发现 BERT 在较低的层次上良好地编码了位置信息,在较高的层次上则更倾向于编码层次结构,这表明 BERT 的表示法确实模拟了语言的一些层次结构,并且对于处理反身代词的普遍敏感性没有人类大脑那么强。
Jun, 2019
本文探究了神经语言模型(NLM)在调整细节后所学习到的语言知识及其对于多种分类问题的预测影响,结合多重探测任务发现,尽管 BERT 能够编码多种语言特征,但在特定的下游任务训练后往往导致相关信息丢失,而 BERT 对于不同语言属性的编码能力将正面影响它的预测能力。
Oct, 2020
本文分析了 BERT 在六种不同的任务中精细调整过程中所嵌入的句法树随着调整而演变的情况,结果表明编码的语法信息在不同任务的精细调整过程中被遗忘(词性标注)、强化(依存句法和组成成句)或保留(语义相关任务)。
Jan, 2021
本文介绍了一种基于信息理论的方法来评估神经网络对自然语言处理的理解程度,即探针,发现在评估中应选择表现最好的模型,即使它是更复杂的模型,以获得更紧密的估计和更多的语言信息。作者在多种语言数据集上进行实验验证了这种方法的有效性。
Apr, 2020
本研究探究了不同的预训练模型(BERT、ELECTRA 和 XLNet)对语言信息编码的差异性,并表明基于深度的评估策略往往存在误导性,我们使用了一种信息论探究方法以获取更为可靠和有用的结论。
Sep, 2021
本文使用七种预训练语言模型,运用七种篇章探测任务,将研究重点从句子级别上升到文档级别上,最终发现 BART 是捕获篇章信息能力最好的模型,但只有其编码器部分表现最佳,BERT 作为基准模型也出奇地表现良好,并且不同层次的模型对篇章信息的刻画效果,以及模型之间的差距巨大。
Apr, 2021
本研究介绍了一个广泛的多语言探测词形信息数据集,利用预训练变形金刚模型(mBERT 和 XLM-RoBERTa),并应用两种方法确定输入中区别信息的位置以实现强大的性能。其中最显著的发现是前缀上下文持有比后缀上下文更多相关预测信息。
Jun, 2023