Feb, 2020

Turkish依赖解析资源:介绍BOUN Treebank 和BoAT标注工具

TL;DR本文介绍我们开发的用于土耳其语依存分析的资源,这些资源包括新型的手动标注树库(BOUN Treebank)、我们采用的指南以及一个新的标注工具(BoAT)。我们采用的手动标注过程是由四名语言学家和五名自然语言处理专家组成的团队塑造和实施的。BOUN Treebank 是迄今为止最大的土耳其语树库之一,包含来自各种主题的9,761个句子,包括传记文本、国家报纸、指令性文本、流行文化文章和短文。此外,我们还报告了在 BOUM Treebank 和其他两个土耳其树库上获得的最新依赖解析器的解析结果。我们的结果表明,统一土耳其标注方案并引入更全面的树库可提高依赖分析的性能。