Apr, 2017

使用双向 RNN-CRF 实现基于字的中文联合分词与词性标注

TL;DR我们提出了一个基于字符的模型来同时进行中文分词和词性标注,该模型采用双向 RNN-CRF 架构进行序列标记,并利用捕捉丰富上下文信息和低于字符级别的特征的新型向量表示的汉字。实验结果表明,我们的模型在不同大小、文体和注释方案的数据集上都很准确和稳健,在 CTB5 上实现了最佳性能,联合分词和词性标注的 F1 分数达到了 94.38。