75 种语言,1 个模型:通用依存关系的全球解析
本文介绍了一种从维基百科数据中创建特定语言 BERT 模型的简单完全自动化流程,并引入 42 个新的这种模型,以往缺乏专门深度神经语言模型的语言。我们使用现有的 UDify 解析器对这些模型的优点进行评估,并发现 UDify 使用的 WikiBERT 模型在平均性能方面优于使用 mBERT 的解析器,这些特定语言模型在某些语言方面表现出显著的改进,而在其他语言方面改进有限或性能下降。我们还提供了初步结果作为了解特定语言模型最有益的条件的第一步。
Jun, 2020
介绍了 Uppsala 系统,它是一个由三个部分构成的流水线,可以用于 CoNLL 2018 共享任务的普遍依赖语法分析。通过使用多个树库对同一语言或密切相关语言训练模型,我们极大地减少了模型数量,最终在公开测试上获得了 LAS 和 MLAS 指标的第 7 位排名以及词分割、普遍 POS 标签和形态特征的最高分。
Sep, 2018
该研究介绍了 Universal Dependencies 的第二个版本,其中包括词汇分析、词形还原、标准化标记和句法关系,适用于 90 种语言,以及主要变化(UD v1 到 UD v2)的讨论。
Apr, 2020
该研究提出了一种基于文本参数生成和适配器模块的新型多语言任务适应方法,该方法通过语言嵌入来学习适配器,同时在各种语言之间共享模型参数,可有效地集成现有的语言类型学特征到分析网络中,并在高资源和低资源语言中均显着优于强的单语言和多语言基线,这表明了所提出的适应方法的成功。
Apr, 2020
使用多语言模型进行依赖解析,通过使用多语言单词聚类和嵌入,令解析器能够在多种语言中进行有效解析,同时基于语言普遍规律和类型相似性实现跨语言推断,从而使其能够更有效地从有限的注释中进行学习。
Feb, 2016
本篇论文研究了是否可以利用大规模多语言语料库(multilingual BERT)上预训练的现成双向深度句子表征,开发出一种无监督的通用句法分析器,以支持低资源语言的处理。实验结果表明,我们的方法在六种真正的低资源语言中均优于 CoNLL 2018 语言特定系统,但仍存在一些限制,如句法分析精度仍然随训练语言的变化而变化,并且在某些目标语言中,零 - shot 转移在所有测试条件下都无法成功,这引发了人们对整个方法的普适性问题的担忧。
Oct, 2019
本文介绍了用 Universal Dependencies 分析 Tweets 的问题,提出了扩展 UD 指南来覆盖 Tweets 中的特殊结构以及使用新的 Tweet Treebank v2 来解决标注中的歧义,并构建了一个可以将原始 Tweets 解析为 UD 的流水线系统。此外,作者还提出了一种新的方法来精简基于转换的解析器的集合,并在真实情况下验证了该方法的有效性。
Apr, 2018
本文介绍了一种新的统一预训练语言模型 (UniLM),该模型可用于自然语言理解和生成任务,使用了三种类型的语言建模任务进行预训练,采用共享 Transformer 网络和特定的自我注意掩码来控制预测条件的上下文,其在自然语言生成方面的表现优于 BERT,最终达到了五种自然语言生成数据集的最新最优成果。
May, 2019
提出了 UDP,这是一种基于 PageRank 算法的无训练的解析器,可用作 Universal Dependencies 的跨语言解析的基准,具有鲁棒性和很少的参数。
Jan, 2017