COLINGSep, 2019

从斯坦福和宾州树库到英语通用依存关系的多层注释转换

TL;DR本文介绍和评估了不同的方法将 Stanford Typed Dependencies (SD) 和 Penn-style 组分树的黄金标准语料库数据转化为最新的英语通用依赖关系 (UD2.2)。结果表明,多种语体下,纯 SD 到 UD 的转换具有高精度,只有 1.5% 的错误率,但如果访问纯语法树之外的注释,如实体类型和指代消解这样的注释,可以进一步提高精度,错误率可以降至不到 0.5%。我们表明,基于成分的转换使用 CoreNLP (自动命名实体识别) 在所有语体中表现不佳,包括在使用黄金成分树时,主要是由于短语语法功能的不充分规范化。