探究 BERT 对自然语言的理解：基于 NPI 的五种分析方法

EMNLPSep, 2019

探究 BERT 对自然语言的理解：基于 NPI 的五种分析方法

Investigating BERT's Knowledge of Language: Five Analysis Methods with NPIs

Alex Warstadt, Yu Cao, Ioana Grosu, Wei Peng, Hagen Blix...

TL;DR本文探讨评估预训练句子表示模型的语法知识的五种实验方法，并以英语中的负极性项（NPI）许可作为案例研究。作者发现 BERT 对关键特征有较高的了解，但其成功程度在不同的实验方法中存在差异。作者认为在其给定领域内揭示模型语法知识的各个相关方面需要多种方法。

Abstract

Though state-of-the-art sentence representation models can perform tasks requiring significant knowledge of grammar, it is an open question how best to evaluate their grammatical knowledge. We explore five experimental methods inspired by prior work evaluating pretrained →

sentence representation models grammar evaluation linguistic phenomenon pretrained models npi licensing

发现论文，激发创造

语言模型使用单调性来评估 NPI 许可

本文探讨语言模型的语义知识，特别关注其是否基于语义单调性属性创建了语言环境类别，并且是否这些类别在语言模型中扮演类似于人类语言理解的作用，以否定极性项许可为案例研究。通过一系列试验，包括探针式诊断分类器、语言可接受性任务，以及一种新型的分类器排名方法，我们能够更深入地了解到这些模型所获得的语义概括。

May, 2021

循环中的转换器：语言神经模型中的极性

本文以极性为案例，使用预训练的 Transformer 模型（BERT 和 GPT-2）探讨了负极性项目（特别是英语中的 'any'）的极性，并证明了语言模型派生的指标比语言学理论预测更符合心理语言学实验数据。这可以更充分地评估语言模型的性能，并使用语言模型来发现自然语言语法方面的新见解。该研究有助于加强心理语言学实验和语言模型实验之间的紧密联系。

Sep, 2021

语言模型理解什么？LSTMs 理解负极性项的能力

本文试图将神经语言模型的内部工作与语言学理论联系起来，特别关注了形式语言学中广泛讨论的复杂现象（负）极性项，并评估了神经语言模型处理这种构造的能力。我们展示了模型在许可环境和负极性项之间找到了一种关系，并且似乎意识到了这种环境的范围。通过这项研究，我们希望为其他将形式语言学与深度学习相结合的研究铺平道路。

Aug, 2018

神经自然语言推断模型部分嵌入了词汇蕴含和否定理论

本研究通过四种方法评估自然语言推理 (NLI) 模型是否可以学习词汇蕴涵和否定之间的组合交互作用，并提出了一个新的自然数据集 MoNLI，其中集中了词汇蕴涵和否定的相关内容，通过对 MoNLI 的 Fine-tuning 得到的模型相较于通用 NLI 数据集拥有更好的效果，同时对当前表现最佳的 BERT 模型进行探究表明其至少部分嵌入了词汇蕴涵和否定的算法级别理论。

Apr, 2020

神经语言模型的语言学分析

本文探究了神经语言模型（NLM）在调整细节后所学习到的语言知识及其对于多种分类问题的预测影响，结合多重探测任务发现，尽管 BERT 能够编码多种语言特征，但在特定的下游任务训练后往往导致相关信息丢失，而 BERT 对于不同语言属性的编码能力将正面影响它的预测能力。

Oct, 2020

多任务问题下的语言建模

本文研究语言模型作为多任务问题，结合了多任务学习，语言学和可解释性三个研究领域。通过研究来自语言学理论的假设，我们调查语言模型在训练过程中是否遵循多任务学习的学习原则。为了展示这个想法，我们分析了语言模型在学习消极极性项（NPIs）的语言概念时的泛化行为。我们的实验表明：在更一般的语言建模任务的目标中，多任务设置自然地出现。我们认为这种洞察力对于多任务学习，语言学和可解释性研究都是有价值的，并且可能导致所有三个领域的令人兴奋的新发现。

Jan, 2021

通过语义片段探究自然语言推理模型

通过使用语义片段，作者发现目前自然语言理解领域最先进的模型在布尔协调、量化、条件、比较和单调性推理等方面表现不佳，在这些问题上进行微调，BERT-based 模型可以掌握所有逻辑和单调性片段，同时保持其在已有 NLI 基准测试的性能。

Sep, 2019

语言模型不抗拒否定：对否定基准测试的分析

本研究针对 LLMs，比如 BERT、GPT-neo、GPT-3 和 InstructGPT 等不同模型，通过实验验证了它们在处理否定句时的局限性，包括对否定句的敏感性不足、无法捕捉词汇语义的否定表述以及在否定条件下推理的失败。

Jun, 2023

神经网络是否可以从原始语言数据中获得结构偏见？

通过针对不同结构相关现象的四个实验，我们评估了 BERT 在原始数据的预训练过程中是否获得了形成结构化概括的归纳偏差，并发现 BERT 在实体 - 助动词倒装，反身代词，以及嵌套从句中动词时态检测中进行了结构化概括，但在 NPI 许可证检测中进行了线性概括，这是迄今为止最有力的支持从原始数据中获取结构性偏差的人工学习器研究结果之一。

Jul, 2020

用于跨语言评估的基于逻辑的语料库

本文提出了一种新的语法任务集，专注于矛盾检测，并评估了递归模型和 BERT 网络。虽然 BERT 在大多数逻辑形式上具有更好的泛化效果，但在处理计数算子时仍有待改进，同时表明该语法任务可以在不同的语言中实现并实现跨语言传递学习。

May, 2019