从零开始的通用依存句法分析

Jan, 2019

Universal Dependency Parsing from Scratch

Peng Qi, Timothy Dozat, Yuhao Zhang, Christopher D. Manning

TL;DR该论文介绍了 Stanford 的 CoNLL 2018 UD 共享任务中的系统，这是一个完整的神经管道系统，可以将原始文本作为输入，并执行共享任务所需的所有任务，从分词和句子分割到词性标注和依赖关系解析，并通过广泛的消融研究展示了不同的模型组件的有效性。

Abstract

This paper describes Stanford's system at the conll 2018 ud shared task. We introduce a complete neural pipeline system that takes raw text as input, and performs all tasks required by the shared task, ranging fr

neural pipeline system conll 2018 ud shared task pos tagging dependency parsing las

发现论文，激发创造

82 个树库，34 个模型：多树库模型实现通用依存句法分析

介绍了 Uppsala 系统，它是一个由三个部分构成的流水线，可以用于 CoNLL 2018 共享任务的普遍依赖语法分析。通过使用多个树库对同一语言或密切相关语言训练模型，我们极大地减少了模型数量，最终在公开测试上获得了 LAS 和 MLAS 指标的第 7 位排名以及词分割、普遍 POS 标签和形态特征的最高分。

Sep, 2018

深度上下文化词向量、集成和树库连接：迈向更好的 UD 句法分析

本文描述了我们的系统（HIT-SCIR），该系统提交给 CoNLL 2018 共享任务，涉及从原始文本到通用依赖的多语言解析。我们基于斯坦福的获胜系统进行提交和进行了两个有效的扩展：1）将深度上下文化词嵌入到词性标记器和解析器中；2）集合使用不同初始化的解析器进行训练。我们还探索了不同的合并树库的方法以进行进一步的改进。开发数据上的实验结果显示了我们方法的有效性。在最后的评估中，我们的系统在 LAS（75.84％）上排名第一，并大幅跑赢了其他系统。

Jul, 2018

一次性读取、标记和解析，或完全神经依存句法分析

用单个深度神经网络实现的依赖关系解析器，无需词性标注即可直接生成依存关系及其标签，经过多任务学习和适当的正则化和额外监督训练，在没有语言特征的情况下，在斯拉夫语 UD 树库中表现为最高准确性。

Sep, 2016

从斯坦福和宾州树库到英语通用依存关系的多层注释转换

本文介绍和评估了不同的方法将 Stanford Typed Dependencies (SD) 和 Penn-style 组分树的黄金标准语料库数据转化为最新的英语通用依赖关系 (UD2.2)。结果表明，多种语体下，纯 SD 到 UD 的转换具有高精度，只有 1.5% 的错误率，但如果访问纯语法树之外的注释，如实体类型和指代消解这样的注释，可以进一步提高精度，错误率可以降至不到 0.5%。我们表明，基于成分的转换使用 CoreNLP (自动命名实体识别) 在所有语体中表现不佳，包括在使用黄金成分树时，主要是由于短语语法功能的不充分规范化。

Sep, 2019

CoNLL 2017 共享任务的 SyntaxNet 模型

本文介绍了一种使用 DRAGNN 框架的依赖分析系统，结合基于转移的递归解析和标记，以及基于字符的单词表示，其在 v1.3 版本的通用依赖树库上，相较于现有的最先进的 “Parsey's Cousins” 模型，标注准确性得分提高了 3.47%。

Mar, 2017

基于预训练多语言句子表示的零样本依存句法分析

本篇论文研究了是否可以利用大规模多语言语料库（multilingual BERT）上预训练的现成双向深度句子表征，开发出一种无监督的通用句法分析器，以支持低资源语言的处理。实验结果表明，我们的方法在六种真正的低资源语言中均优于 CoNLL 2018 语言特定系统，但仍存在一些限制，如句法分析精度仍然随训练语言的变化而变化，并且在某些目标语言中，零 - shot 转移在所有测试条件下都无法成功，这引发了人们对整个方法的普适性问题的担忧。

Oct, 2019

Stanford 依存句法分析方法的实证比较

本文重新审视了 Cer 等人（2010）提出的一个问题：在获得 Stanford 依赖性方面，准确性与速度之间的权衡是什么？我们还探讨了输入表示对这种权衡的影响：词性标记、替代依赖性表示作为输入以及单词的分布表示。我们发现，直接依赖解析是一种比过去更可行的解决方案。

Apr, 2014

基于数据的儿童 - 家长互动解析评估

本研究提出了一个语法依存树库，用于儿童自然语言的注释和研究，分析了写作和口语之间的语言特征并探讨了儿童语言发展与句法分析器性能的关系。

Sep, 2022

口语对话系统的依存句法分析

本研究提出了一种名为 SCUD 的新的语言依存注释标准，并提供了 ConvBank 数据集，以用于在人机对话方面训练依存句法分析模型。实验表明，将模型预训练于公共数据集并在 ConvBank 数据上进行微调可以取得最好的结果，达到了 85.05％的未标注和 77.82％的标注连接准确率。

Sep, 2019

使用二阶推理和混合训练数据增强通用依存句法分析

该论文提出了一种基于图的解析器系统，并使用二阶推理方法。我们在低资源的泰米尔语语料库中，将泰米尔语的训练数据与其他语言混合使用，显著提高了泰米尔语的性能。尽管我们之前提交了未连接的图，导致在 10 个团队中只排名第六，但我们解决这个问题后，我们的系统比官方排名第一的团队高出 0.6 ELAS。

Jun, 2020