Aug, 2015

形态丰富语言的概率建模

TL;DR本论文研究了如何在语言的概率模型中考虑单词的子结构。从单词的形态学基本概念出发,提出了三种不同类型的语言模型。在n元语言模型中,提出了一种基于复合词分解的Bayesian模型,还开发了一种新的分布式语言模型。在这两种情况下,论文表明考虑单词的子结构可以提高模型性能和机器翻译的质量。此外,我们还探讨了一些可以自动学习语言词根及语言特征的模型。这些方法应用在闪族语言上表现出更好的结果。