使用增量解析和动态预测来明确建模语言模型中的语法

Oct, 2020

使用增量解析和动态预测来明确建模语言模型中的语法

Explicitly Modeling Syntax in Language Models with Incremental Parsing and a Dynamic Oracle

Yikang Shen, Shawn Tan, Alessandro Sordoni, Siva Reddy, Aaron Courville

TL;DR该研究提出了一种新的语法感知语言模型：Syntactic Ordered Memory (SOM)，它通过一个增量式解析器显式地建模了结构，并保持了标准语言模型 (从左到右) 的条件概率设置。实验证明，该模型在语言建模、增量解析和语法泛化测试方面均能取得强大的结果，同时使用的参数比其他模型更少。

Abstract

syntax is fundamental to our thinking about language. Failing to capture the structure of input language could lead to generalization problems and over-parametrization. In the present work, we propose a new syntax

syntax language model incremental parser exposure bias syntactic generalization

发现论文，激发创造

自回归语言模型中的增量解析状态探测

本研究评估了自回归神经语言模型在句法上对语法结构维护能力的学习程度，提出了几种用于从自回归语言模型中提取不完全的句法结构的探测器，并发现这些探测器可用于预测模型对于可疑前缀的偏好、对模型的表现进行因果干预，从而表明自回归神经语言模型的下一词预测中存在隐含的增量句法推理。

Nov, 2022

概率自顶向下解析和语言建模

本文介绍了一种广覆盖概率自顶向下解析器的运作原理和其在语音识别中的应用。首先介绍了语言建模和概率解析的关键概念，并简要回顾了利用句法结构来进行语言建模的一些以前的方法。然后介绍了一种词汇化的概率自顶向下解析器，它在返回解析的准确性和寻找解析效率方面表现非常优异，相对于最好的广覆盖统计解析器。接着提出了一种利用概率自顶向下解析的新的语言模型，实证结果表明，它在测试语料库的困惑度上优于先前的工作。与三元模型的插值获得了异常的提高，说明我们的解析模型捕捉的信息与三元模型捕捉的信息是正交的。最后，一个小的语音识别实验也证明了该模型的实用性。

May, 2001

语法驱动的迭代扩展语言模型用于可控文本生成

通过引入句法归纳偏差，使用依赖分析树驱动转换器模型迭代生成句子，实验证明其比 LSTM 和 Transformer 更有效，并具有可比拟的多样性且需要较少的解码步骤，生成过程允许对生成文本的句法构造进行直接控制，从而实现风格变形的归纳。

Apr, 2020

薛定谔树 -- 论语法与神经语言模型

本文回顾了近年来自然语言处理领域的语言模型的发展，并探讨在研究语言模型中基于句法的研究中存在的问题以及解决方案，旨在为未来语言模型的研究提供一种较为多样化和立体化的研究视角。

Oct, 2021

通过联合学习句法和词汇进行神经语言建模

本文提出了一种新型的神经语言模型 Parsing-Reading-Predict Networks（PRPN），利用其特定的神经网络结构能够自动识别未标注的句子的句法结构，并利用它来学习更好的语言模型。实验证明，该模型能够发现底层的句法结构，并在单词 / 字符水平的语言模型任务上取得了最先进水平。

Nov, 2017

通用代码生成的句法神经模型

本文提出了一种新型神经体系结构，它由语法模型支持，旨在将自然语言描述解析为基于 Python 等通用编程语言的源代码，并将其显式地捕获为先验知识，以实现从自然语言描述生成复杂程序的规模化。实验证明，这是一种有效缩放到语言描述的复杂程序的方法，取得了优于以前代码生成和语义解析方法的最新成果。

Apr, 2017

使用非确定性 oracle 训练增量式文本到 SQL 解析器

该研究介绍了一种面向自然语言到 SQL 任务的序列到操作分析方法，使用从预定义库存中得到的操作填充 SQL 查询的槽。该方法考虑到通常有多个具有相同或非常相似语义的正确 SQL 查询，从句法分析技术中汲取灵感，并提出用非确定性的神谕来训练序列到操作模型，该模型可处理上述不确定性，取得了更好的执行精度。与执行引导的解码策略相结合的模型，在执行精度方面达到了 87.1% 的新的最高性能。评估结果来自 WikiSQL 数据集。

Sep, 2018

基于跨度的成分句法分析：结构标签系统和可证明最优动态预测

通过使用仅包含句子跨度的最小 LSTM 特征表示的新的 shift-reduce 系统以及第一个可以证明最优的动态 Oracle，该算法的时间复杂度是摊销 O（1），相比于标准依赖解析的 O（n ^ 3）Oracle，我们在使用这个 Oracle 进行训练后，在不使用重新排名或外部数据的情况下取得了最好的 F1 分数，而句法解析准确度得到了显著提高。

Dec, 2016

动态语法映射：一种无监督句法分析的新方法

语言模型的关注分布可以表达句法依赖关系。本研究介绍了动态句法映射（DSM）这一方法来无偏诱导这些结构，并发现通过使用更多的替代词语可以显著提高对自然语言数据的解析精度，尤其在长距离的主谓一致性方面。同时，DSM 在不同的解析场景中都表现出适应性，突显其广泛适用性。

Dec, 2023

从部分到严格递增的成分句法分析

本研究通过分析增量成分解析器的能力来仅仅基于前缀表示输出语法树。我们使用严格从左到右的生成式语言模型和树解码模块构建了符合增量性的解析器，该工作在语言之间积极探索了增量性。同时，我们分析了非增量和部分增量模型。

Feb, 2024