75 种语言，1 个模型：通用依存关系的全球解析

EMNLPApr, 2019

75 种语言，1 个模型：通用依存关系的全球解析

75 Languages, 1 Model: Parsing Universal Dependencies Universally

Dan Kondratyuk, Milan Straka

TL;DRUDify 是一个多语言多任务模型，可以准确预测 75 种语言中 124 个通用依赖树库的通用词性、形态特征、词形和依赖树，无需任何循环或语言特定组件，并且在跨语言注释方面对低资源语言起到关键作用，并且可以进行零 - shot 学习。

Abstract

We present udify, a multilingual multi-task model capable of accurately predicting universal part-of-speech, morphological features, lemma

udify multilingual part-of-speech dependency trees bert

发现论文，激发创造

WikiBERT 模型：多语言深度迁移学习

本文介绍了一种从维基百科数据中创建特定语言 BERT 模型的简单完全自动化流程，并引入 42 个新的这种模型，以往缺乏专门深度神经语言模型的语言。我们使用现有的 UDify 解析器对这些模型的优点进行评估，并发现 UDify 使用的 WikiBERT 模型在平均性能方面优于使用 mBERT 的解析器，这些特定语言模型在某些语言方面表现出显著的改进，而在其他语言方面改进有限或性能下降。我们还提供了初步结果作为了解特定语言模型最有益的条件的第一步。

Jun, 2020

82 个树库，34 个模型：多树库模型实现通用依存句法分析

介绍了 Uppsala 系统，它是一个由三个部分构成的流水线，可以用于 CoNLL 2018 共享任务的普遍依赖语法分析。通过使用多个树库对同一语言或密切相关语言训练模型，我们极大地减少了模型数量，最终在公开测试上获得了 LAS 和 MLAS 指标的第 7 位排名以及词分割、普遍 POS 标签和形态特征的最高分。

Sep, 2018

通用语义解析

UDepLambda 是一个语义接口，它将自然语言映射到逻辑形式，可以处理依存图，并在自然语言理解中表现出色，对于多语言问题回答有很好的性能。

Feb, 2017

通用依存关系 v2：一个不断增长的多语言树库集合

该研究介绍了 Universal Dependencies 的第二个版本，其中包括词汇分析、词形还原、标准化标记和句法关系，适用于 90 种语言，以及主要变化（UD v1 到 UD v2）的讨论。

Apr, 2020

UDapter：面向真正通用依存句法分析的语言适应

该研究提出了一种基于文本参数生成和适配器模块的新型多语言任务适应方法，该方法通过语言嵌入来学习适配器，同时在各种语言之间共享模型参数，可有效地集成现有的语言类型学特征到分析网络中，并在高资源和低资源语言中均显着优于强的单语言和多语言基线，这表明了所提出的适应方法的成功。

Apr, 2020

众多语言，一种解析器

使用多语言模型进行依赖解析，通过使用多语言单词聚类和嵌入，令解析器能够在多种语言中进行有效解析，同时基于语言普遍规律和类型相似性实现跨语言推断，从而使其能够更有效地从有限的注释中进行学习。

Feb, 2016

基于预训练多语言句子表示的零样本依存句法分析

本篇论文研究了是否可以利用大规模多语言语料库（multilingual BERT）上预训练的现成双向深度句子表征，开发出一种无监督的通用句法分析器，以支持低资源语言的处理。实验结果表明，我们的方法在六种真正的低资源语言中均优于 CoNLL 2018 语言特定系统，但仍存在一些限制，如句法分析精度仍然随训练语言的变化而变化，并且在某些目标语言中，零 - shot 转移在所有测试条件下都无法成功，这引发了人们对整个方法的普适性问题的担忧。

Oct, 2019

将推文解析为通用依存关系

本文介绍了用 Universal Dependencies 分析 Tweets 的问题，提出了扩展 UD 指南来覆盖 Tweets 中的特殊结构以及使用新的 Tweet Treebank v2 来解决标注中的歧义，并构建了一个可以将原始 Tweets 解析为 UD 的流水线系统。此外，作者还提出了一种新的方法来精简基于转换的解析器的集合，并在真实情况下验证了该方法的有效性。

Apr, 2018

自然语言理解与生成的统一语言模型预训练

本文介绍了一种新的统一预训练语言模型 (UniLM)，该模型可用于自然语言理解和生成任务，使用了三种类型的语言建模任务进行预训练，采用共享 Transformer 网络和特定的自我注意掩码来控制预测条件的上下文，其在自然语言生成方面的表现优于 BERT，最终达到了五种自然语言生成数据集的最新最优成果。

May, 2019

无需训练的通用依存关系分析

提出了 UDP，这是一种基于 PageRank 算法的无训练的解析器，可用作 Universal Dependencies 的跨语言解析的基准，具有鲁棒性和很少的参数。

Jan, 2017