多语言非重复依赖树库：理解 LLMs 如何表示和处理句法结构

Nov, 2023

多语言非重复依赖树库：理解 LLMs 如何表示和处理句法结构

Multilingual Nonce Dependency Treebanks: Understanding how LLMs represent and process syntactic structure

David Arps, Laura Kallmeyer, Younes Samih, Hassan Sajjad

TL;DR我们介绍了 SPUD（语义扰动通用依赖语法）框架，用于创建多语言通用依赖语料库的一次性树库。我们创建了阿拉伯语、英语、法语、德语和俄语的一次性数据，并展示了 SPUD 树库的两个用例。

Abstract

We introduce spud (Semantically Perturbed Universal Dependencies), a framework for creating nonce treebanks for the multilingual Universal Dependencies (UD) corpora. →

spud nonce treebanks syntactic argument structure word co-occurrence statistics syntactic dependency probes

发现论文，激发创造

通用语义解析

UDepLambda 是一个语义接口，它将自然语言映射到逻辑形式，可以处理依存图，并在自然语言理解中表现出色，对于多语言问题回答有很好的性能。

Feb, 2017

神经语言模型是否显示对句法形式的偏好？

研究深度神经语言模型的可解释性，通过在多种语言模型中应用基于深度句法和表层句法的分析方法，考察其对语法结构的捕获程度以及不同语言间的一致性关系，并发现该语言模型普遍倾向 “Universal Dependencies” 语法形式，并且这种倾向的强度与树形状的差异有关。

Apr, 2020

将推文解析为通用依存关系

本文介绍了用 Universal Dependencies 分析 Tweets 的问题，提出了扩展 UD 指南来覆盖 Tweets 中的特殊结构以及使用新的 Tweet Treebank v2 来解决标注中的歧义，并构建了一个可以将原始 Tweets 解析为 UD 的流水线系统。此外，作者还提出了一种新的方法来精简基于转换的解析器的集合，并在真实情况下验证了该方法的有效性。

Apr, 2018

通过依赖树转换进行多语言语法感知语言建模

通过依存句法树到常量句法树的转换，使用递归神经网络语法模型（RNNGs）进行训练，并在多语言环境下进行了实证评估，来探讨在学习模型时哪种树形式最佳，对哪些语言最适用，并通过七种类型的句法测试比较了 9 种转换方法和 5 种语言的语言模型表现，研究结果显示，最佳模型相对于最差模型在所有语言中的精确度提高了 19％，也证明了在多语言环境中注入语法的积极作用。

Apr, 2022

AMUSE: 面向语义链接数据的多语言问答语义解析

研究发现，多语言自然语言问答技术仍存在困难，我们提出了一种利用 DUDES 和 MCMC 方法建立模型的 QALD 管道，成功将自然语言问题转换为可执行的 SPARQL 查询，并且在英语、德语和西班牙语环境下进行了测试。

Feb, 2018

从语言模型中归纳语言结构

该论文研究了从语言模型中以无监督方式生成组成和依赖结构的问题，并通过一系列实验表明了其在语法结构识别方面的可行性和存在的限制。

Mar, 2024

口语对话系统的依存句法分析

本研究提出了一种名为 SCUD 的新的语言依存注释标准，并提供了 ConvBank 数据集，以用于在人机对话方面训练依存句法分析模型。实验表明，将模型预训练于公共数据集并在 ConvBank 数据上进行微调可以取得最好的结果，达到了 85.05％的未标注和 77.82％的标注连接准确率。

Sep, 2019

跨语言和语法下预训练模型的评估

我们提出了一种评估多语言大型语言模型在多形式语法结构方面学习句法的方法，将分析转化为序列标记，通过选择几个语言模型并在 13 个多样化的依赖解析树库和 10 个成分解析树库上研究它们，结果表明：（i）该框架在多种编码上一致，（ii）预先训练的词向量不偏好成分句法表示，而是倾向于依赖表示，（iii）子词标记化需要用于表示语法，与基于字符的模型不同，（iv）从词向量中恢复语法时，语言在预训练数据中的出现比任务数据的数量更重要。

Sep, 2023

基于语法依赖的无监督句法代换

本文介绍了一种新的方法 SSUD，通过利用语法关系的一个属性 —— 语法替换性，不需要监督下拉金标准解析，就能诱导出语法结构，从而帮助理解大型预训练语言模型（LLMs）的句法能力，提高依赖分析任务的定量和定性效果。

Nov, 2022

基于数据的儿童 - 家长互动解析评估

本研究提出了一个语法依存树库，用于儿童自然语言的注释和研究，分析了写作和口语之间的语言特征并探讨了儿童语言发展与句法分析器性能的关系。

Sep, 2022