泰国通用依赖树库
本文介绍了用 Universal Dependencies 分析 Tweets 的问题,提出了扩展 UD 指南来覆盖 Tweets 中的特殊结构以及使用新的 Tweet Treebank v2 来解决标注中的歧义,并构建了一个可以将原始 Tweets 解析为 UD 的流水线系统。此外,作者还提出了一种新的方法来精简基于转换的解析器的集合,并在真实情况下验证了该方法的有效性。
Apr, 2018
介绍了 Uppsala 系统,它是一个由三个部分构成的流水线,可以用于 CoNLL 2018 共享任务的普遍依赖语法分析。通过使用多个树库对同一语言或密切相关语言训练模型,我们极大地减少了模型数量,最终在公开测试上获得了 LAS 和 MLAS 指标的第 7 位排名以及词分割、普遍 POS 标签和形态特征的最高分。
Sep, 2018
本文提供第一个公开的 Odia 语言树库,并使用机器学习技术对其进行了形态分析。该树库将丰富 Odia 语言资源,有助于建立跨语言学习和分类研究的语言技术工具。本文还构建了一个初步的 Odia 语言分析器,并对 Odia 的 UD 树库进行了简要的语言分析。
May, 2022
TLE 是第一个提供公开的英语为第二语言的句法树库,它为来自剑桥英语第一证书(FCE)语料库的 5,124 个句子提供了手动注释的 POS 标签和通用依赖(UD)树。该树库可用于支持广泛的第二语言习得领域和自动处理不流畅语言的计算机研究。
May, 2016
该研究介绍了 Universal Dependencies 的第二个版本,其中包括词汇分析、词形还原、标准化标记和句法关系,适用于 90 种语言,以及主要变化(UD v1 到 UD v2)的讨论。
Apr, 2020
本文介绍了基于通用依存关系框架为 Magahi 和 Braj 两种低资源印度语言开发的 treebanks,包含 945 个 Magahi 句子和约 500 个 Braj 句子,标注他们的词形、词性、形态学特征和通用依存关系,描述了这两种语言中不同的依存关系,并提供了两个 treebanks 的统计数据。数据集将在下一个 (v2.10) 版本的通用依存库中公开。
Apr, 2022
本论文介绍了我们如何开发一种基于神经网络的依存解析器,即 ThamizhiUDp,它使用统一依存形式为 Tamil 文本提供完整的依存解析管道。我们考虑了依存解析管道的各个阶段并确定了每个阶段的工具和资源,以提高准确性和解决数据稀缺性等问题。ThamizhiUDp 使用了多语言训练和各种工具和资源,包括 Stanford 解析器、ThamizhiPOSt、ThamizhiMorph 和 uuparser,其表现优于当前取得的 Tamil 语言解析最佳结果
Dec, 2020
本研究旨在评估迁移学习在增强爪哇语的依存解析中的功效。使用了包括爪哇语在内的 100 多种语言的依存树库,提出了两种学习策略:迁移学习和分层迁移学习。结果表明,我们的最佳模型采用了分层迁移学习方法,相比基准模型,UAS 和 LAS 评估指标均提高了 10%。
Jan, 2024
该论文介绍了 Stanford 的 CoNLL 2018 UD 共享任务中的系统,这是一个完整的神经管道系统,可以将原始文本作为输入,并执行共享任务所需的所有任务,从分词和句子分割到词性标注和依赖关系解析,并通过广泛的消融研究展示了不同的模型组件的有效性。
Jan, 2019