学习者英语的通用依存关系
该研究介绍了 Universal Dependencies 的第二个版本,其中包括词汇分析、词形还原、标准化标记和句法关系,适用于 90 种语言,以及主要变化(UD v1 到 UD v2)的讨论。
Apr, 2020
本研究使用神经叠加的方法,在 Universal Dependencies 方案下构建了 Singlish 依赖树库,并将英语语法知识整合到最新的 Singlish 依赖分析器中,结果显示英语知识可以减少 25% 的错误率,使分析器的准确度为 84.47%。我们是首次在低资源语言上使用神经叠加来改善跨语言依赖解析。我们会将我们的注释和分析器提供给进一步的研究。
May, 2017
本研究通过引入泰语通用依存树库(TUD)解决了自动依存解析泰语句子的问题,并通过将预训练的 transformer 作为编码器来训练泰语依存解析模型,在评估结果中表明大多数模型能够胜过前期研究中的其他模型,为泰语依存解析器的最佳组件选择提供了见解,并将实验中的新树库和每个模型的完整预测结果在 GitHub 上进行了共享。
May, 2024
本文介绍了用 Universal Dependencies 分析 Tweets 的问题,提出了扩展 UD 指南来覆盖 Tweets 中的特殊结构以及使用新的 Tweet Treebank v2 来解决标注中的歧义,并构建了一个可以将原始 Tweets 解析为 UD 的流水线系统。此外,作者还提出了一种新的方法来精简基于转换的解析器的集合,并在真实情况下验证了该方法的有效性。
Apr, 2018
介绍了 Uppsala 系统,它是一个由三个部分构成的流水线,可以用于 CoNLL 2018 共享任务的普遍依赖语法分析。通过使用多个树库对同一语言或密切相关语言训练模型,我们极大地减少了模型数量,最终在公开测试上获得了 LAS 和 MLAS 指标的第 7 位排名以及词分割、普遍 POS 标签和形态特征的最高分。
Sep, 2018
本研究旨在评估迁移学习在增强爪哇语的依存解析中的功效。使用了包括爪哇语在内的 100 多种语言的依存树库,提出了两种学习策略:迁移学习和分层迁移学习。结果表明,我们的最佳模型采用了分层迁移学习方法,相比基准模型,UAS 和 LAS 评估指标均提高了 10%。
Jan, 2024
本文探讨了 Enhanced Universal Dependencies 中坐标结构的表示,通过创造一个大规模的数据集,手动编辑语法图,确定了应该在语义角度传播哪些依赖链接,比较了基于规则和基于机器学习的方法,并提出了一种基于神经图解析器的边缘预测器,超越了目前主要的基于基本层树解析器加转换器的流水线。
Mar, 2021
UDify 是一个多语言多任务模型,可以准确预测 75 种语言中 124 个通用依赖树库的通用词性、形态特征、词形和依赖树,无需任何循环或语言特定组件,并且在跨语言注释方面对低资源语言起到关键作用,并且可以进行零 - shot 学习。
Apr, 2019
通过 CGELBank 项目,我们将英语语法的剑桥文法形式化引入树库中,探讨了在语料库标注中出现的一些语言分析问题,并与 UD 和 PTB 树库进行了定量和定性比较,我们认为 CGEL 提供了分析的全面性和注释的可用性之间的一个很好的权衡,这促使未来通过自动转换扩展树库。
Oct, 2022