词嵌入和词形态的联合模型
本论文提出了一种可扩展的方法,将组成形态学表示集成到基于向量的概率语言模型中,并在语言模型因词汇而被适当地实现以实现内部和外部评估,在一些语言上进行实验研究并展示结果,表明我们的模型学习了形态学表示,在词相似性任务上表现出色且使困惑度大幅降低,用于转化大词汇量的形态丰富语言时,我们的模型相对于使用回退N-gram模型的基线系统,可以获得高达1.2的蓝点改进。
May, 2014
本论文研究了如何在语言的概率模型中考虑单词的子结构。从单词的形态学基本概念出发,提出了三种不同类型的语言模型。在n元语言模型中,提出了一种基于复合词分解的Bayesian模型,还开发了一种新的分布式语言模型。在这两种情况下,论文表明考虑单词的子结构可以提高模型性能和机器翻译的质量。此外,我们还探讨了一些可以自动学习语言词根及语言特征的模型。这些方法应用在闪族语言上表现出更好的结果。
Aug, 2015
通过将形态学信息融合到词向量中,构建了一个统一的概率框架,其中词嵌入是一个潜变量,并以形态学信息提供先验分布。此方法改进了内在词相似性评估,也在词性标注下游任务中提高了性能。
Aug, 2016
该研究提出了一种新颖的概率模型来捕捉单词形成的分析和合成的含义,利用神经网络的向量组合方法,共同学习单词的形态划分和语义语素的分布式向量,提高了单词的分割准确率和语素F1指标3%至5%。
Jan, 2017
本文提出了三种新模型,通过隐性使用形态信息增强单词嵌入,实验结果表明隐性模型优于传统显性模型,表现优于所有现有模型,并能在单词嵌入训练过程中补充语义信息。
Jan, 2017
本文研究单词嵌入模型的集成式线性方法,使用基于普通最小二乘回归或正交Procrustes问题的迭代方法构造组合模型,并在爱沙尼亚语中进行了实验比较,结果表明使用正交Procrustes将多个单词嵌入模型组合成集成模型可能导致同义词测试中相对于初始模型的平均结果提高7-10%和类比测试提高19-47%。
Apr, 2017
本文探索了单词嵌入捕捉语义和形态相似性的能力,通过各种类型的语言属性(表面形式,词形,形态标签)将每个单词的表示组合起来影响该过程。我们训练了几个模型,每个模型使用不同的属性子集来组合它的表示。通过对语义和形态度量进行评估,我们揭示了语义和形态之间关系的一些有用洞见。
Apr, 2017
通过系统地比较不同的基本表示单元、表示单元的组合方式和建模的语言的形态学类型,我们发现用 bi-LSTM 组合字符三元组表示法在大多数情况下优于其他方法,但是没有任何一种基于字符级别的模型能够与直接使用真实的形态学分析相比拟,即使学习数据增加一个数量级。
Apr, 2017
本研究通过对五种语言的三个任务进行大量实验研究,发现在利用子词级别信息进行词表示学习时,不同语言和任务下,分词和组成函数等关键组件的最优配置各异。同时,我们还发现,一些无监督分词方法,如BPE和Morfessor等,有时能够和甚至超过一些基于监督分词方法的配置。
Apr, 2019