从零开始的通用依存句法分析
介绍了 Uppsala 系统,它是一个由三个部分构成的流水线,可以用于 CoNLL 2018 共享任务的普遍依赖语法分析。通过使用多个树库对同一语言或密切相关语言训练模型,我们极大地减少了模型数量,最终在公开测试上获得了 LAS 和 MLAS 指标的第 7 位排名以及词分割、普遍 POS 标签和形态特征的最高分。
Sep, 2018
本文描述了我们的系统(HIT-SCIR),该系统提交给 CoNLL 2018 共享任务,涉及从原始文本到通用依赖的多语言解析。我们基于斯坦福的获胜系统进行提交和进行了两个有效的扩展:1)将深度上下文化词嵌入到词性标记器和解析器中;2)集合使用不同初始化的解析器进行训练。我们还探索了不同的合并树库的方法以进行进一步的改进。开发数据上的实验结果显示了我们方法的有效性。在最后的评估中,我们的系统在 LAS(75.84%)上排名第一,并大幅跑赢了其他系统。
Jul, 2018
用单个深度神经网络实现的依赖关系解析器,无需词性标注即可直接生成依存关系及其标签,经过多任务学习和适当的正则化和额外监督训练,在没有语言特征的情况下,在斯拉夫语 UD 树库中表现为最高准确性。
Sep, 2016
本文介绍和评估了不同的方法将 Stanford Typed Dependencies (SD) 和 Penn-style 组分树的黄金标准语料库数据转化为最新的英语通用依赖关系 (UD2.2)。结果表明,多种语体下,纯 SD 到 UD 的转换具有高精度,只有 1.5% 的错误率,但如果访问纯语法树之外的注释,如实体类型和指代消解这样的注释,可以进一步提高精度,错误率可以降至不到 0.5%。我们表明,基于成分的转换使用 CoreNLP (自动命名实体识别) 在所有语体中表现不佳,包括在使用黄金成分树时,主要是由于短语语法功能的不充分规范化。
Sep, 2019
本文介绍了一种使用 DRAGNN 框架的依赖分析系统,结合基于转移的递归解析和标记,以及基于字符的单词表示,其在 v1.3 版本的通用依赖树库上,相较于现有的最先进的 “Parsey's Cousins” 模型,标注准确性得分提高了 3.47%。
Mar, 2017
本篇论文研究了是否可以利用大规模多语言语料库(multilingual BERT)上预训练的现成双向深度句子表征,开发出一种无监督的通用句法分析器,以支持低资源语言的处理。实验结果表明,我们的方法在六种真正的低资源语言中均优于 CoNLL 2018 语言特定系统,但仍存在一些限制,如句法分析精度仍然随训练语言的变化而变化,并且在某些目标语言中,零 - shot 转移在所有测试条件下都无法成功,这引发了人们对整个方法的普适性问题的担忧。
Oct, 2019
本文重新审视了 Cer 等人(2010)提出的一个问题:在获得 Stanford 依赖性方面,准确性与速度之间的权衡是什么?我们还探讨了输入表示对这种权衡的影响:词性标记、替代依赖性表示作为输入以及单词的分布表示。我们发现,直接依赖解析是一种比过去更可行的解决方案。
Apr, 2014
本研究提出了一种名为 SCUD 的新的语言依存注释标准,并提供了 ConvBank 数据集,以用于在人机对话方面训练依存句法分析模型。实验表明,将模型预训练于公共数据集并在 ConvBank 数据上进行微调可以取得最好的结果,达到了 85.05%的未标注和 77.82%的标注连接准确率。
Sep, 2019
该论文提出了一种基于图的解析器系统,并使用二阶推理方法。我们在低资源的泰米尔语语料库中,将泰米尔语的训练数据与其他语言混合使用,显著提高了泰米尔语的性能。尽管我们之前提交了未连接的图,导致在 10 个团队中只排名第六,但我们解决这个问题后,我们的系统比官方排名第一的团队高出 0.6 ELAS。
Jun, 2020