Oct, 2018

基于 Lattice LSTM 的中文分词的子词编码

TL;DR本文研究了一种基于格子结构的长短时记忆网络,通过与词典匹配子序列信息实现对中文分词的支持,并通过对比 Word Encoding 和 Subword Encoding 两种编码方式表明 Subword Encoding 更具优势。结果表明本文提出的模型在四个分词基准测试中表现出与先前最先进的方法相当甚至更好的结果,并对其表现和性能进行了深入分析。