薛定谔树 -- 论语法与神经语言模型

Oct, 2021

薛定谔树 -- 论语法与神经语言模型

Schrödinger's Tree -- On Syntax and Neural Language Models

Artur Kulmizev, Joakim Nivre

TL;DR本文回顾了近年来自然语言处理领域的语言模型的发展，并探讨在研究语言模型中基于句法的研究中存在的问题以及解决方案，旨在为未来语言模型的研究提供一种较为多样化和立体化的研究视角。

Abstract

In the last half-decade, the field of natural language processing (NLP) has undergone two major transitions: the switch to neural networks as the primary modeling paradigm and the homogenization of the training r

natural language processing neural networks language models syntax linguistic theory

发现论文，激发创造

语言学框架在神经符号语言建模中展开激烈较量

本文探讨了语言图表示在理论上能否 complement 并提高神经语言建模的能力。通过集成一个预训练的 Transformer 和七种不同形式主义的 ground-truth 图，研究发现，总体而言，语义组成结构对于语言建模的性能最有用，超越了句法组成结构以及句法和语义依存关系结构。此外，这种效应在不同的词性类别中差异很大。总之，我们的研究结果为神经符号语言建模带来了有前途的倾向，并邀请未来研究 quantifying 不同形式主义所做的设计选择。

Dec, 2021

语言模型中的因果图重新发现人类叙事处理中的皮质层级

通过比较语言模型特征对大脑活动的预测准确性，研究发现语言模型和人脑在语言信息处理方面存在相似性。

Nov, 2023

神经语言模型中语法表示的过高估计

研究最近聚焦于神经语言模型的成功因素，测试方法学、n-gram 模型以及 LSTM 模型等方式都被用来验证其句法表达的能力，本论文重现了最近论文的实验结果，显示了以字符串为基础的句法诱导训练的基本问题。

Apr, 2020

语言模型中如何种植树木：数据和架构对句法归纳偏差发生的影响

本文研究了预训练模型在通用语言中层次化句法功能的作用，通过诊断语法转换任务来诊断预训练参数的归纳偏差，结果表明，模型深度对于层次化泛化具有更大的作用，同时，在训练规模方面，使用适当的语料库预训练可以提高效率。

May, 2023

神经语言模型是否显示对句法形式的偏好？

研究深度神经语言模型的可解释性，通过在多种语言模型中应用基于深度句法和表层句法的分析方法，考察其对语法结构的捕获程度以及不同语言间的一致性关系，并发现该语言模型普遍倾向 “Universal Dependencies” 语法形式，并且这种倾向的强度与树形状的差异有关。

Apr, 2020

神经语言模型中的语法推广的系统评估

我们对神经语言模型的句法知识进行了系统评估，发现模型架构的不同对句法泛化性能产生了显著影响，而不同数据集大小的影响相对较低。

May, 2020

通过联合学习句法和词汇进行神经语言建模

本文提出了一种新型的神经语言模型 Parsing-Reading-Predict Networks（PRPN），利用其特定的神经网络结构能够自动识别未标注的句子的句法结构，并利用它来学习更好的语言模型。实验证明，该模型能够发现底层的句法结构，并在单词 / 字符水平的语言模型任务上取得了最先进水平。

Nov, 2017

神经语言模型语法归纳：一次不寻常的复制实验

该研究针对最近基于潜在树学习的神经网络模型探索，探索在非解析任务下使用解析值潜变量训练模型，用于发现可解释的树形结构，并成功在语言建模和成分句法分析领域展示了潜在树学习的实用性。

Aug, 2018

通用句法结构：为多种自然语言建模句法

我们旨在解释人脑如何将单词连接起来形成句子，通过引入一种新颖的模型来建模句法表示，可能显示出所有自然语言的普遍句法结构的存在，从而提供人类大脑中语言工作方式的基本理解，同时为语言学、心理学和认知科学的理论提供一些见解。我们研究了普遍句法结构的逻辑和建模技术的方法论，试图分析展示不同自然语言（如英语和韩语）中语言过程的普遍性的语料库。最后，我们讨论了关于人类大脑理解方面的关键周期假说、普遍语法以及其他一些语言断言。

Dec, 2023

神经语言模型作为心理语言学研究对象：句法状态的表征

本研究使用控制的心理语言学实验方法，研究神经网络语言模型对句法状态的递增表示程度，发现 LSTM 序列模型在训练大型数据集时能够对文本中的广泛句法状态进行有效的表示，而对小型数据集的训练效果不如递归神经网络 (RNNG)。

Mar, 2019