扰动掩蔽:一种无需参数的探测BERT以进行分析和解释的方法
本文介绍了一种基于信息理论的方法来评估神经网络对自然语言处理的理解程度,即探针,发现在评估中应选择表现最好的模型,即使它是更复杂的模型,以获得更紧密的估计和更多的语言信息。作者在多种语言数据集上进行实验验证了这种方法的有效性。
Apr, 2020
本研究提出了Amnesic Probing方法,用以替代传统的伪推式分析方法,并通过对BERT进行一系列分析,发现伪推性能并不与任务重要性相关,并呼吁加强对从伪推结果中得出行为或因果结论的主张的审查。
Jun, 2020
本文讨论了自然语言处理系统中之前探测语言结构方法的缺陷,并提出了基于多元高斯探针的内在探测框架,以便于检测词向量的语言信息。通过36种语言的实验证明,多数形态语法特征由少数神经元可靠编码,而fastText相较于BERT更加集中其语言结构。
Oct, 2020
本文从BERT的表示空间出发,通过一系列探针任务和属性方法探究模型的语言学知识表达方式,发现BERT倾向于对语法和语义异常进行编码,并能够明显地区分语法数和时态子空间。
Apr, 2021
该研究旨在通过贝叶斯框架度量文本中的归纳偏差量,并通过对Contextual embeddings的探究,比较了fastText和BERT在不同任务上的性能表现差异。
Oct, 2021
通过引入噪音亚百特信息编码的向量空间,使用探测框架扩展方法,研究了GloVe和BERT嵌入中向量范数如何编码不同种类的信息,发现GloVe在向量范数中存储了句法和句子长度信息,而BERT则将其用于编码上下文不连贯信息。
Oct, 2022
该研究提出了一种使用任务特定掩码的方法,通过修改预训练的BERT模型来适应下游任务。研究结果表明,这种选择性掩码策略优于随机掩码,具有较好的效果。
Nov, 2022
本论文通过probing调查fine-tuning和knowledge distillation过程中,BERT基础的自然语言理解(NLU)模型出现的现象。实验结果表明,当前形式的probing范式不适合回答这些问题,因此,信息可解码的量化是探测范式在许多实际应用中至关重要的。
Jan, 2023
本研究介绍了一个广泛的多语言探测词形信息数据集,利用预训练变形金刚模型(mBERT和XLM-RoBERTa),并应用两种方法确定输入中区别信息的位置以实现强大的性能。其中最显著的发现是前缀上下文持有比后缀上下文更多相关预测信息。
Jun, 2023
通过使用非线性结构探测器来研究编码信息的结构特点,这篇论文提出了一种简化而有效的非线性结构探测器设计,并设计了一个可视化框架来定性地评估句子中两个词之间的连接强度,并用于探索BERT在各层中编码的依赖关系树的结构。研究发现,径向基函数(RBF)比线性探测器对BERT模型更有效。
Feb, 2024