从语言模型中归纳语言结构

Mar, 2024

Linguistic Structure Induction from Language Models

Omar Momen

TL;DR该论文研究了从语言模型中以无监督方式生成组成和依赖结构的问题，并通过一系列实验表明了其在语法结构识别方面的可行性和存在的限制。

Abstract

linear sequences of words are implicitly represented in our brains by hierarchical structures that organize the composition of words in sentences. Linguists formalize different frameworks to model this hierarchy;

linear sequences hierarchical structures language models constituency dependency

发现论文，激发创造

StructFormer: 联合无监督遮蔽语言建模归纳依存结构和组成结构

本文提出了一种新的自然语言无监督语法分析模型，StructFormer，可以同时识别依存结构和组成结构，通过引入一个新的解析框架，该框架可以一起生成组成树和依赖图，并通过新颖的依赖约束的自我关注机制将依赖关系集成到 transformer 中，在无监督组成句法分析、无监督依存分析和蒙特卡罗语言建模方面取得了强大的结果。

Dec, 2020

句法表示有用 [MASK]：递归 LSTMs 中成分和依存结构的影响

研究基于序列的神经网络与基于树的网络在句法任务上的表现，并比较常见的句法表示方法对句法结构带来的影响，同时发现基于组成结构的网络更具鲁棒性，通过少量构建的数据 fine-tune 可以显着提高序列模型的性能，表明数据增强是为序列模型注入句法偏置的可行替代方案。

Apr, 2020

深度学习方法的句法归纳偏置

我们在本文中介绍了两种归纳偏差方法，分别针对语法结构和依赖关系，实现了深度学习模型的归纳偏差，并通过这些方法建立了深度学习模型的潜在分层表示，使模型能够处理复杂的序列结构并在语言处理任务中取得了优秀的效果。

Jun, 2022

神经语言模型中的成分结构探测

本文研究神经语言模型对句法结构的学习能力，发现预训练的 Transfomer LM 即使在语义有错的情况下仍能准确地代表不同类别的成分，并且语法信息确实被 LM 学习并与语义信息分离。

Apr, 2022

跨语言和语法下预训练模型的评估

我们提出了一种评估多语言大型语言模型在多形式语法结构方面学习句法的方法，将分析转化为序列标记，通过选择几个语言模型并在 13 个多样化的依赖解析树库和 10 个成分解析树库上研究它们，结果表明：（i）该框架在多种编码上一致，（ii）预先训练的词向量不偏好成分句法表示，而是倾向于依赖表示，（iii）子词标记化需要用于表示语法，与基于字符的模型不同，（iv）从词向量中恢复语法时，语言在预训练数据中的出现比任务数据的数量更重要。

Sep, 2023

语言学框架在神经符号语言建模中展开激烈较量

本文探讨了语言图表示在理论上能否 complement 并提高神经语言建模的能力。通过集成一个预训练的 Transformer 和七种不同形式主义的 ground-truth 图，研究发现，总体而言，语义组成结构对于语言建模的性能最有用，超越了句法组成结构以及句法和语义依存关系结构。此外，这种效应在不同的词性类别中差异很大。总之，我们的研究结果为神经符号语言建模带来了有前途的倾向，并邀请未来研究 quantifying 不同形式主义所做的设计选择。

Dec, 2021

人类和大型语言模型中潜在成分表示的主动运用

人脑与大型语言模型在句子内部表征方面具有相似的层级结构，通过删除单词来推断句子的潜在分层结构，并证明了这种结构在人脑和语言模型中都能出现。

May, 2024

通过依赖树转换进行多语言语法感知语言建模

通过依存句法树到常量句法树的转换，使用递归神经网络语法模型（RNNGs）进行训练，并在多语言环境下进行了实证评估，来探讨在学习模型时哪种树形式最佳，对哪些语言最适用，并通过七种类型的句法测试比较了 9 种转换方法和 5 种语言的语言模型表现，研究结果显示，最佳模型相对于最差模型在所有语言中的精确度提高了 19％，也证明了在多语言环境中注入语法的积极作用。

Apr, 2022

在神经堆栈中寻找句法表示

本文通过探究无监督条件下对成分结构的学习，提出了使用一种技术从堆叠循环神经网络的推送行为中提取句法树，证明堆叠循环神经网络确实推断出了具有语言学相关的层次结构。

Jun, 2019

神经网络中的新兴语言结构是脆弱的

本文提出了一种基于探测任务的神经网络模型的韧性度量方法，在通过语言模型中提取出的语言结构上评估了四种大型语言模型的一致性和鲁棒性，并发现神经网络的新兴句法表示具有脆弱性。

Oct, 2022