形态学词向量
本论文提出了一种可扩展的方法,将组成形态学表示集成到基于向量的概率语言模型中,并在语言模型因词汇而被适当地实现以实现内部和外部评估,在一些语言上进行实验研究并展示结果,表明我们的模型学习了形态学表示,在词相似性任务上表现出色且使困惑度大幅降低,用于转化大词汇量的形态丰富语言时,我们的模型相对于使用回退N-gram模型的基线系统,可以获得高达1.2的蓝点改进。
May, 2014
该研究探讨神经机器翻译模型所学到的嵌入,在需要同时考虑概念相似性和词汇-句法角色知识的任务中,它们的性能优于单语言模型所学到的嵌入。研究结果还表明,词汇扩展算法对嵌入质量的影响很小。
Dec, 2014
通过系统比较四种不同的方法,本研究对于在四个不同语言对上诱导跨语言词向量的方法进行了评估,包括内在评估和外在评估,并展示在某些任务上,廉价监督模型的性能是有竞争力的。
Apr, 2016
本文介绍了一种联合模型,能够对单词进行无监督的形态分析,并学习从形态素到单词嵌入的字符级组成函数。该模型对单词进行分割,并根据其预测上下文单词的能力对每个分割部分进行加权。我们的形态分析与专门的形态分析器相当,并且在语法类比回答任务中表现优异。最后,我们表明,将形态学明确纳入字符级模型有助于它们生成与人类判断更相关的未知单词的嵌入。
Jun, 2016
通过将形态学信息融合到词向量中,构建了一个统一的概率框架,其中词嵌入是一个潜变量,并以形态学信息提供先验分布。此方法改进了内在词相似性评估,也在词性标注下游任务中提高了性能。
Aug, 2016
本文提出了三种新模型,通过隐性使用形态信息增强单词嵌入,实验结果表明隐性模型优于传统显性模型,表现优于所有现有模型,并能在单词嵌入训练过程中补充语义信息。
Jan, 2017
本文研究单词嵌入模型的集成式线性方法,使用基于普通最小二乘回归或正交Procrustes问题的迭代方法构造组合模型,并在爱沙尼亚语中进行了实验比较,结果表明使用正交Procrustes将多个单词嵌入模型组合成集成模型可能导致同义词测试中相对于初始模型的平均结果提高7-10%和类比测试提高19-47%。
Apr, 2017
本文探索了单词嵌入捕捉语义和形态相似性的能力,通过各种类型的语言属性(表面形式,词形,形态标签)将每个单词的表示组合起来影响该过程。我们训练了几个模型,每个模型使用不同的属性子集来组合它的表示。通过对语义和形态度量进行评估,我们揭示了语义和形态之间关系的一些有用洞见。
Apr, 2017
本文研究词嵌入技术中的理想表示问题,发现各种模型包含的信息互相矛盾,通过线性变换来调整相似度排序以提高其结果,同时探讨了内在和外在评估之间的关系。
Sep, 2018