英语 UD 的报告卡:UD Treebank 是否更加一致?
本文介绍和评估了不同的方法将 Stanford Typed Dependencies (SD) 和 Penn-style 组分树的黄金标准语料库数据转化为最新的英语通用依赖关系 (UD2.2)。结果表明,多种语体下,纯 SD 到 UD 的转换具有高精度,只有 1.5% 的错误率,但如果访问纯语法树之外的注释,如实体类型和指代消解这样的注释,可以进一步提高精度,错误率可以降至不到 0.5%。我们表明,基于成分的转换使用 CoreNLP (自动命名实体识别) 在所有语体中表现不佳,包括在使用黄金成分树时,主要是由于短语语法功能的不充分规范化。
Sep, 2019
该研究介绍了 Universal Dependencies 的第二个版本,其中包括词汇分析、词形还原、标准化标记和句法关系,适用于 90 种语言,以及主要变化(UD v1 到 UD v2)的讨论。
Apr, 2020
本文介绍了用 Universal Dependencies 分析 Tweets 的问题,提出了扩展 UD 指南来覆盖 Tweets 中的特殊结构以及使用新的 Tweet Treebank v2 来解决标注中的歧义,并构建了一个可以将原始 Tweets 解析为 UD 的流水线系统。此外,作者还提出了一种新的方法来精简基于转换的解析器的集合,并在真实情况下验证了该方法的有效性。
Apr, 2018
介绍了 Uppsala 系统,它是一个由三个部分构成的流水线,可以用于 CoNLL 2018 共享任务的普遍依赖语法分析。通过使用多个树库对同一语言或密切相关语言训练模型,我们极大地减少了模型数量,最终在公开测试上获得了 LAS 和 MLAS 指标的第 7 位排名以及词分割、普遍 POS 标签和形态特征的最高分。
Sep, 2018
本文探讨了 Enhanced Universal Dependencies 中坐标结构的表示,通过创造一个大规模的数据集,手动编辑语法图,确定了应该在语义角度传播哪些依赖链接,比较了基于规则和基于机器学习的方法,并提出了一种基于神经图解析器的边缘预测器,超越了目前主要的基于基本层树解析器加转换器的流水线。
Mar, 2021
本论文介绍了基于维基百科选定主题的希伯来 UD 树库,进行了质量评估,并且使用最新的语言模型和现有的基于转换器的方法进行了跨域分析实验,取得了最新的技术成果。
Oct, 2022
本研究通过引入泰语通用依存树库(TUD)解决了自动依存解析泰语句子的问题,并通过将预训练的 transformer 作为编码器来训练泰语依存解析模型,在评估结果中表明大多数模型能够胜过前期研究中的其他模型,为泰语依存解析器的最佳组件选择提供了见解,并将实验中的新树库和每个模型的完整预测结果在 GitHub 上进行了共享。
May, 2024
本文描述了我们的系统(HIT-SCIR),该系统提交给 CoNLL 2018 共享任务,涉及从原始文本到通用依赖的多语言解析。我们基于斯坦福的获胜系统进行提交和进行了两个有效的扩展:1)将深度上下文化词嵌入到词性标记器和解析器中;2)集合使用不同初始化的解析器进行训练。我们还探索了不同的合并树库的方法以进行进一步的改进。开发数据上的实验结果显示了我们方法的有效性。在最后的评估中,我们的系统在 LAS(75.84%)上排名第一,并大幅跑赢了其他系统。
Jul, 2018
UDify 是一个多语言多任务模型,可以准确预测 75 种语言中 124 个通用依赖树库的通用词性、形态特征、词形和依赖树,无需任何循环或语言特定组件,并且在跨语言注释方面对低资源语言起到关键作用,并且可以进行零 - shot 学习。
Apr, 2019
TLE 是第一个提供公开的英语为第二语言的句法树库,它为来自剑桥英语第一证书(FCE)语料库的 5,124 个句子提供了手动注释的 POS 标签和通用依赖(UD)树。该树库可用于支持广泛的第二语言习得领域和自动处理不流畅语言的计算机研究。
May, 2016