语言模型理解什么？LSTMs 理解负极性项的能力

EMNLPAug, 2018

语言模型理解什么？LSTMs 理解负极性项的能力

Do Language Models Understand Anything? On the Ability of LSTMs to Understand Negative Polarity Items

Jaap Jumelet, Dieuwke Hupkes

TL;DR本文试图将神经语言模型的内部工作与语言学理论联系起来，特别关注了形式语言学中广泛讨论的复杂现象（负）极性项，并评估了神经语言模型处理这种构造的能力。我们展示了模型在许可环境和负极性项之间找到了一种关系，并且似乎意识到了这种环境的范围。通过这项研究，我们希望为其他将形式语言学与深度学习相结合的研究铺平道路。

Abstract

In this paper, we attempt to link the inner workings of a neural language model to linguistic theory, focusing on a complex phenomenon well discussed in formal linguis- tics: (negative) polarity items. We briefly discuss the leading hypotheses about the →

neural language model linguistic theory negative polarity items licensing contexts formal linguistics

发现论文，激发创造

循环中的转换器：语言神经模型中的极性

本文以极性为案例，使用预训练的 Transformer 模型（BERT 和 GPT-2）探讨了负极性项目（特别是英语中的 'any'）的极性，并证明了语言模型派生的指标比语言学理论预测更符合心理语言学实验数据。这可以更充分地评估语言模型的性能，并使用语言模型来发现自然语言语法方面的新见解。该研究有助于加强心理语言学实验和语言模型实验之间的紧密联系。

Sep, 2021

语言模型使用单调性来评估 NPI 许可

本文探讨语言模型的语义知识，特别关注其是否基于语义单调性属性创建了语言环境类别，并且是否这些类别在语言模型中扮演类似于人类语言理解的作用，以否定极性项许可为案例研究。通过一系列试验，包括探针式诊断分类器、语言可接受性任务，以及一种新型的分类器排名方法，我们能够更深入地了解到这些模型所获得的语义概括。

May, 2021

多任务问题下的语言建模

本文研究语言模型作为多任务问题，结合了多任务学习，语言学和可解释性三个研究领域。通过研究来自语言学理论的假设，我们调查语言模型在训练过程中是否遵循多任务学习的学习原则。为了展示这个想法，我们分析了语言模型在学习消极极性项（NPIs）的语言概念时的泛化行为。我们的实验表明：在更一般的语言建模任务的目标中，多任务设置自然地出现。我们认为这种洞察力对于多任务学习，语言学和可解释性研究都是有价值的，并且可能导致所有三个领域的令人兴奋的新发现。

Jan, 2021

探究 BERT 对自然语言的理解：基于 NPI 的五种分析方法

本文探讨评估预训练句子表示模型的语法知识的五种实验方法，并以英语中的负极性项（NPI）许可作为案例研究。作者发现 BERT 对关键特征有较高的了解，但其成功程度在不同的实验方法中存在差异。作者认为在其给定领域内揭示模型语法知识的各个相关方面需要多种方法。

Sep, 2019

语言模型不抗拒否定：对否定基准测试的分析

本研究针对 LLMs，比如 BERT、GPT-neo、GPT-3 和 InstructGPT 等不同模型，通过实验验证了它们在处理否定句时的局限性，包括对否定句的敏感性不足、无法捕捉词汇语义的否定表述以及在否定条件下推理的失败。

Jun, 2023

语言规范化 LSTMs 用于情感分类

本研究提出了使用句子级别注释训练的简单模型，同时采用正则化方法，以模拟情感词汇、否定词和强度词汇的语言学角色，从而生成语言学相关的表示形式，并且能够捕捉情感、否定和强度词汇的情感转移效应，同时在不损失模型简洁性的前提下获得竞争性的结果。

Nov, 2016

面向目标的语法评估语言模型

该研究提出了使用一个语言模型预测的句子的语法正确性来评估该模型的数据集。实验结果表明，在众多句子变体中，LSTM 语言模型的准确性较差，而使用句法目标的多任务训练可以提高模型的准确性，但模型仍存在较大的进步空间。

Aug, 2018

你所言非虚！大型语言模型对负面常识知识表现过于积极

本研究探讨了大型语言模型在处理负常识知识时的能力，通过设计了一系列的受限关键词句子生成任务和布尔问答任务，发现大型语言模型在生成句子方面存在信仰冲突现象，即难以生成基于负常识的句子，但能够正确回答极性的是或否问题。我们的进一步分析表明，语言模型预训练中的统计和否定偏见报告是这种冲突的原因。

May, 2023

这不是一个数据集：一个用于挑战大规模语言模型的大规模否定评估基准

大型语言模型在理解否定时表现亚优，本研究通过引入一个大规模自动生成的常识知识数据集，涉及到约 40 万个描述性句子，其中大约 2/3 的句子包含否定形式，使用零样本学习方法对现有开源语言模型进行测试，结果表明尽管模型对于肯定的句子有较高准确性，但在否定句子方面存在困难，缺乏深入理解否定的能力。尽管在否定句子上对模型进行微调可以提高其性能，但在处理否定方面仍然存在泛化能力不足的问题，突显出大型语言模型在否定理解和泛化方面仍面临挑战。

Oct, 2023

理解非理解：在语言模型中建模否定

本文针对自然语言中否定句的建构，借助负面通用语句的反向学习目标，优化了 BERT 语言模型，将 negated LAMA 数据集的平均 top1 错误率降至 4％，并在 negated NLI 基准测试中看到了一些改进。

May, 2021