语法何时在神经语言模型性能中发挥作用?来自 Dropout 探针的证据
该研究通过在不同语言的多语言语言模型和单语 BERT 模型中执行反事实扰动,并观察模型主谓一致概率的效果,发现了受语法一致性影响的神经元的分布情况,语言模型的行为分析可能低估了掩码语言模型对语法信息的敏感性。
Oct, 2022
研究最近聚焦于神经语言模型的成功因素,测试方法学、n-gram 模型以及 LSTM 模型等方式都被用来验证其句法表达的能力,本论文重现了最近论文的实验结果,显示了以字符串为基础的句法诱导训练的基本问题。
Apr, 2020
本文回顾了近年来自然语言处理领域的语言模型的发展,并探讨在研究语言模型中基于句法的研究中存在的问题以及解决方案,旨在为未来语言模型的研究提供一种较为多样化和立体化的研究视角。
Oct, 2021
本文探讨了神经模型如何学习语言任务以及词嵌入对模型表现的影响,证明模型可以学习到语言属性,而预训练的词嵌入对于编码这些属性起着重要作用。
May, 2020
受认知神经学研究的启发,我们介绍了一种新颖的 “解码探测” 方法,利用最小对比基准(BLiMP)逐层探测神经语言模型中的内在语言特征。通过将语言模型视为 “大脑”,其表示为 “神经激活”,我们从中间层的表示中解码最小对比的语法标签。该方法揭示了:1)自监督语言模型在中间层捕捉到了 GloVe 和 RNN 语言模型无法学习到的抽象语言结构。2)句法语法性的信息在 GPT-2 的最初三层中得到了鲁棒地捕捉,且在后续层中也分布广泛。随着句子复杂度的增加,需要更多的层来学习语法能力。3)比起语法,形态和语义 / 句法接口相关特征更难捕捉。4)对于基于 Transformer 的模型,嵌入和注意力机制都捕捉到了语法特征,但显示出不同的模式。不同的注意力头对于不同的语言现象展现出类似的倾向,但贡献有所不同。
Mar, 2024
本文提出了一种方法来探测在预训练语言模型中进行逻辑推理需要的语言现象,发现预训练语言模型对于一些推理所需要的语言信息进行了编码,同时也发现了有一些信息的编码比较弱,但是预训练语言模型通过微调能够有效地学习到缺失的语言信息。这些结果为语言模型作为支持符号推理方法的语义和背景知识库的潜力提供了有价值的见解。
Dec, 2021
该研究采用神经元级别探测器,在包括 43 种语言的 14 个形态句法类别上进行了大规模的实证研究,并发现了多语言预训练模型的跨语言重叠是显著的,但其范围可能因语言接近性和预培训数据的大小而异,支持其能够对语法进行语言通用的抽象。
May, 2022
本文介绍了一种基于信息理论的方法来评估神经网络对自然语言处理的理解程度,即探针,发现在评估中应选择表现最好的模型,即使它是更复杂的模型,以获得更紧密的估计和更多的语言信息。作者在多种语言数据集上进行实验验证了这种方法的有效性。
Apr, 2020