Sep, 2018

迈向标准化和更准确的印度尼西亚词性标注

TL;DR本文探讨了印度尼西亚文本的词性标注。我们使用基于规则、CRF 和神经网络的模型进行试验,并在 IDN Tagged Corpus 上对其进行评估,最终用递归神经网络取得了 97.47 的最优性能。同时,我们还公开了我们使用的数据集以供未来的研究使用。