本文介绍了一种基于信息理论的方法来评估神经网络对自然语言处理的理解程度,即探针,发现在评估中应选择表现最好的模型,即使它是更复杂的模型,以获得更紧密的估计和更多的语言信息。作者在多种语言数据集上进行实验验证了这种方法的有效性。
Apr, 2020
通过研究 BERT 中的单词上下文含义的量化,我们展示了预训练语言模型如何解释单词在上下文中的重要性,结果显示顶层语义表示对于任务的推断非常准确,底层语义表示更具可转移性。
研究神经表示在探测实验中的有效性并提出一种条件探测的理论,通过该理论研究发现在条件化非上下文单词嵌入后,部分性质如词性是可以在深层网络中被探测的。
Sep, 2021
本文提出了一种新的潜变量公式用于构建内在探测器以确定语言属性所在位置,并提出一个可行的变分逼近方法,用于求解对数似然函数计算,结果表明这个模型能够获得更好的内部探测精度,并且在跨语言的形态句法方面表现良好。
Jan, 2022
本文讨论了自然语言处理系统中之前探测语言结构方法的缺陷,并提出了基于多元高斯探针的内在探测框架,以便于检测词向量的语言信息。通过 36 种语言的实验证明,多数形态语法特征由少数神经元可靠编码,而 fastText 相较于 BERT 更加集中其语言结构。
Oct, 2020
本文提出了一种方法来探测在预训练语言模型中进行逻辑推理需要的语言现象,发现预训练语言模型对于一些推理所需要的语言信息进行了编码,同时也发现了有一些信息的编码比较弱,但是预训练语言模型通过微调能够有效地学习到缺失的语言信息。这些结果为语言模型作为支持符号推理方法的语义和背景知识库的潜力提供了有价值的见解。
Dec, 2021
本论文通过 probing 调查 fine-tuning 和 knowledge distillation 过程中,BERT 基础的自然语言理解(NLU)模型出现的现象。实验结果表明,当前形式的 probing 范式不适合回答这些问题,因此,信息可解码的量化是探测范式在许多实际应用中至关重要的。
Jan, 2023
本文探讨了神经模型如何学习语言任务以及词嵌入对模型表现的影响,证明模型可以学习到语言属性,而预训练的词嵌入对于编码这些属性起着重要作用。
May, 2020
本研究基于任务版本的概念,通过发展一种启发式工具 DirectProbe 直接研究表示物的几何结构,揭示了嵌入空间如何表示标签,并预测了分类器的性能。
Apr, 2021
该论文提出了一种名为贝叶斯互信息的新框架,它从贝叶斯代理的角度分析信息,使得在有限数据情况下处理可以帮助增加信息的同时也有可能削减信息,更加符合机器学习应用的直觉,最终将该框架运用到探针任务中,通过限制可用背景知识来实现抽取的易于性。