泰国通用依赖树库

May, 2024

Thai Universal Dependency Treebank

Panyur Sriwirote, Wei Qi Leong, Charin Polpanumas, Santhawat Thanyawong, William Chandra Tjhi...

TL;DR本研究通过引入泰语通用依存树库（TUD）解决了自动依存解析泰语句子的问题，并通过将预训练的 transformer 作为编码器来训练泰语依存解析模型，在评估结果中表明大多数模型能够胜过前期研究中的其他模型，为泰语依存解析器的最佳组件选择提供了见解，并将实验中的新树库和每个模型的完整预测结果在 GitHub 上进行了共享。

Abstract

automatic dependency parsing of Thai sentences has been underexplored, as evidenced by the lack of large Thai dependency treebanks with complete dependency structures and the lack of a published systematic evaluation of state-of-the-art models, especially →

automatic dependency parsing thai universal dependency treebank transformer-based parsers dependency parsing models thai dependency parsers

发现论文，激发创造

将推文解析为通用依存关系

本文介绍了用 Universal Dependencies 分析 Tweets 的问题，提出了扩展 UD 指南来覆盖 Tweets 中的特殊结构以及使用新的 Tweet Treebank v2 来解决标注中的歧义，并构建了一个可以将原始 Tweets 解析为 UD 的流水线系统。此外，作者还提出了一种新的方法来精简基于转换的解析器的集合，并在真实情况下验证了该方法的有效性。

Apr, 2018

82 个树库，34 个模型：多树库模型实现通用依存句法分析

介绍了 Uppsala 系统，它是一个由三个部分构成的流水线，可以用于 CoNLL 2018 共享任务的普遍依赖语法分析。通过使用多个树库对同一语言或密切相关语言训练模型，我们极大地减少了模型数量，最终在公开测试上获得了 LAS 和 MLAS 指标的第 7 位排名以及词分割、普遍 POS 标签和形态特征的最高分。

Sep, 2018

奥里亚语通用依存树库

本文提供第一个公开的 Odia 语言树库，并使用机器学习技术对其进行了形态分析。该树库将丰富 Odia 语言资源，有助于建立跨语言学习和分类研究的语言技术工具。本文还构建了一个初步的 Odia 语言分析器，并对 Odia 的 UD 树库进行了简要的语言分析。

May, 2022

学习者英语的通用依存关系

TLE 是第一个提供公开的英语为第二语言的句法树库，它为来自剑桥英语第一证书（FCE）语料库的 5,124 个句子提供了手动注释的 POS 标签和通用依赖（UD）树。该树库可用于支持广泛的第二语言习得领域和自动处理不流畅语言的计算机研究。

May, 2016

通用依存关系 v2：一个不断增长的多语言树库集合

该研究介绍了 Universal Dependencies 的第二个版本，其中包括词汇分析、词形还原、标准化标记和句法关系，适用于 90 种语言，以及主要变化（UD v1 到 UD v2）的讨论。

Apr, 2020

为 Magahi 和 Braj 开发通用依存树库

本文介绍了基于通用依存关系框架为 Magahi 和 Braj 两种低资源印度语言开发的 treebanks，包含 945 个 Magahi 句子和约 500 个 Braj 句子，标注他们的词形、词性、形态学特征和通用依存关系，描述了这两种语言中不同的依存关系，并提供了两个 treebanks 的统计数据。数据集将在下一个 (v2.10) 版本的通用依存库中公开。

Apr, 2022

基于数据的儿童 - 家长互动解析评估

本研究提出了一个语法依存树库，用于儿童自然语言的注释和研究，分析了写作和口语之间的语言特征并探讨了儿童语言发展与句法分析器性能的关系。

Sep, 2022

ThamizhiUDp：泰米尔语依存句法分析器

本论文介绍了我们如何开发一种基于神经网络的依存解析器，即 ThamizhiUDp，它使用统一依存形式为 Tamil 文本提供完整的依存解析管道。我们考虑了依存解析管道的各个阶段并确定了每个阶段的工具和资源，以提高准确性和解决数据稀缺性等问题。ThamizhiUDp 使用了多语言训练和各种工具和资源，包括 Stanford 解析器、ThamizhiPOSt、ThamizhiMorph 和 uuparser，其表现优于当前取得的 Tamil 语言解析最佳结果

Dec, 2020

爪哇语依存分析的跨语言迁移学习

本研究旨在评估迁移学习在增强爪哇语的依存解析中的功效。使用了包括爪哇语在内的 100 多种语言的依存树库，提出了两种学习策略：迁移学习和分层迁移学习。结果表明，我们的最佳模型采用了分层迁移学习方法，相比基准模型，UAS 和 LAS 评估指标均提高了 10%。

Jan, 2024

从零开始的通用依存句法分析

该论文介绍了 Stanford 的 CoNLL 2018 UD 共享任务中的系统，这是一个完整的神经管道系统，可以将原始文本作为输入，并执行共享任务所需的所有任务，从分词和句子分割到词性标注和依赖关系解析，并通过广泛的消融研究展示了不同的模型组件的有效性。

Jan, 2019