语法何时在神经语言模型性能中发挥作用？来自 Dropout 探针的证据

Apr, 2022

语法何时在神经语言模型性能中发挥作用？来自 Dropout 探针的证据

When Does Syntax Mediate Neural Language Model Performance? Evidence from Dropout Probes

Mycal Tucker, Tiwalayo Eisape, Peng Qian, Roger Levy, Julie Shah

TL;DR语言模型中使用的语法信息可能存在多余编码，通过一种新的探针设计，可准确引导探针考虑嵌入中的所有语法信息，揭示语法在当前方法未能探测到的模型中的有效性，进而通过注入语法信息提高模型性能。

Abstract

Recent causal probing literature reveals when language models and syntactic probes use similar representations. Such techniques may yield "false negative" causality results: models may use representations of syntax

language models syntactic probes probe design syntax model performance

发现论文，激发创造

从声音到语法：探究口语语言模型的句法

研究了自我监督和视觉基础的多个口语模型对句法的编码方式，证明句法结构被最明显地捕获在中间层，并在参数较多的模型中表现得更加明显。

May, 2023

多语言语言模型中的句法一致性神经元因果分析

该研究通过在不同语言的多语言语言模型和单语 BERT 模型中执行反事实扰动，并观察模型主谓一致概率的效果，发现了受语法一致性影响的神经元的分布情况，语言模型的行为分析可能低估了掩码语言模型对语法信息的敏感性。

Oct, 2022

神经语言模型中语法表示的过高估计

研究最近聚焦于神经语言模型的成功因素，测试方法学、n-gram 模型以及 LSTM 模型等方式都被用来验证其句法表达的能力，本论文重现了最近论文的实验结果，显示了以字符串为基础的句法诱导训练的基本问题。

Apr, 2020

探针与解析器的故事

本研究对比了一个新型结构探针和传统解析器，发现两种方法在不同语言上效果并存，提出了关于使用哪种技术的问题。

May, 2020

薛定谔树 -- 论语法与神经语言模型

本文回顾了近年来自然语言处理领域的语言模型的发展，并探讨在研究语言模型中基于句法的研究中存在的问题以及解决方案，旨在为未来语言模型的研究提供一种较为多样化和立体化的研究视角。

Oct, 2021

探究 Probing 方法范式：精度是否意味着任务相关性？

本文探讨了神经模型如何学习语言任务以及词嵌入对模型表现的影响，证明模型可以学习到语言属性，而预训练的词嵌入对于编码这些属性起着重要作用。

May, 2020

解码探究：利用最小对比揭示神经语言模型中的内部语言结构

受认知神经学研究的启发，我们介绍了一种新颖的 “解码探测” 方法，利用最小对比基准（BLiMP）逐层探测神经语言模型中的内在语言特征。通过将语言模型视为 “大脑”，其表示为 “神经激活”，我们从中间层的表示中解码最小对比的语法标签。该方法揭示了：1）自监督语言模型在中间层捕捉到了 GloVe 和 RNN 语言模型无法学习到的抽象语言结构。2）句法语法性的信息在 GPT-2 的最初三层中得到了鲁棒地捕捉，且在后续层中也分布广泛。随着句子复杂度的增加，需要更多的层来学习语法能力。3）比起语法，形态和语义 / 句法接口相关特征更难捕捉。4）对于基于 Transformer 的模型，嵌入和注意力机制都捕捉到了语法特征，但显示出不同的模式。不同的注意力头对于不同的语言现象展现出类似的倾向，但贡献有所不同。

Mar, 2024

探究预训练语言模型中的语言信息以进行逻辑推理

本文提出了一种方法来探测在预训练语言模型中进行逻辑推理需要的语言现象，发现预训练语言模型对于一些推理所需要的语言信息进行了编码，同时也发现了有一些信息的编码比较弱，但是预训练语言模型通过微调能够有效地学习到缺失的语言信息。这些结果为语言模型作为支持符号推理方法的语义和背景知识库的潜力提供了有价值的见解。

Dec, 2021

同一神经元，不同语言：探究多语言预训练模型中的形态语法

该研究采用神经元级别探测器，在包括 43 种语言的 14 个形态句法类别上进行了大规模的实证研究，并发现了多语言预训练模型的跨语言重叠是显著的，但其范围可能因语言接近性和预培训数据的大小而异，支持其能够对语法进行语言通用的抽象。

May, 2022

信息论探针用于语言结构探索

本文介绍了一种基于信息理论的方法来评估神经网络对自然语言处理的理解程度，即探针，发现在评估中应选择表现最好的模型，即使它是更复杂的模型，以获得更紧密的估计和更多的语言信息。作者在多种语言数据集上进行实验验证了这种方法的有效性。

Apr, 2020