Jun, 2020

基于SVM的越南语分词:减少歧义和捕获后缀

TL;DR使用支持向量机分类器的越南语单词分割方法通过采用音节的 n-gram、音节类型的 n-gram 和在词典中检查相邻音节的连接等方面,继承了以前的工作特征,提出了两种新的特征提取方法,一种是减少重叠歧义,另一种是增加预测包含后缀的未知单词的能力,在基准越南语数据集上,我们提出的方法获得了比先前最先进的方法 UETsegmenter 和 RDRsegmenter 更好的 F1 分数。