Mar, 2020

使用期望最大化和修剪改进的子单词分割算法 Morfessor EM+Prune

TL;DR本文介绍了一种针对单语词根基于期望最大化算法和词典剪枝的 unigram 子词模型的训练算法,并比较了不同算法在英语、芬兰语、北萨米语和土耳其语数据集上的效果。通过改进优化问题,提高了基于语言黄金标准的单词分割的准确率。同时,我们在广泛使用的 Morfessor 软件包中公开了新算法的实现。