Apr, 2011

通用词性标注集

TL;DR为了简化未监督学习句法结构的研究并标准化其最佳实践,我们提出了由十二个通用词性类别组成的标签集,同时我们还开发了一种映射由 25 个不同的树库标签集转换为这个通用集的方法。与原始的树库数据相结合,这个通用标签集和映射生成了一个由 22 种不同语言的常见词性组成的数据集。我们通过两个实验来突出使用这个资源的优点,其中一个实验报告了未使用黄金标准词性标记进行无监督语法归纳的竞争准确性。