形态学词向量
本文探索了单词嵌入捕捉语义和形态相似性的能力,通过各种类型的语言属性(表面形式,词形,形态标签)将每个单词的表示组合起来影响该过程。我们训练了几个模型,每个模型使用不同的属性子集来组合它的表示。通过对语义和形态度量进行评估,我们揭示了语义和形态之间关系的一些有用洞见。
Apr, 2017
通过将形态学信息融合到词向量中,构建了一个统一的概率框架,其中词嵌入是一个潜变量,并以形态学信息提供先验分布。此方法改进了内在词相似性评估,也在词性标注下游任务中提高了性能。
Aug, 2016
本文提出了三种新模型,通过隐性使用形态信息增强单词嵌入,实验结果表明隐性模型优于传统显性模型,表现优于所有现有模型,并能在单词嵌入训练过程中补充语义信息。
Jan, 2017
该研究探讨神经机器翻译模型所学到的嵌入,在需要同时考虑概念相似性和词汇 - 句法角色知识的任务中,它们的性能优于单语言模型所学到的嵌入。研究结果还表明,词汇扩展算法对嵌入质量的影响很小。
Dec, 2014
本文介绍了一种联合模型,能够对单词进行无监督的形态分析,并学习从形态素到单词嵌入的字符级组成函数。该模型对单词进行分割,并根据其预测上下文单词的能力对每个分割部分进行加权。我们的形态分析与专门的形态分析器相当,并且在语法类比回答任务中表现优异。最后,我们表明,将形态学明确纳入字符级模型有助于它们生成与人类判断更相关的未知单词的嵌入。
Jun, 2016
该研究探讨了一种计算模型,即词嵌入模型,通过将词表示为多维空间中的向量,从词汇共现模式中学习来自语义记忆中的常见知识,并提出了语义投影的解决方案,以检验词嵌入模型是否能够恢复多种语义特征和对象属性的上下文依赖关系。
Feb, 2018
为了探究如何在词汇元素和结构之间获取更深的关系并过滤多余信息,我们提出了保留词素、句法和其他类型语言信息并结合原始 tokens 或 lemmas 的方法,从而训练出更精确的词向量,并将其应用于预训练的语言模型以提高其性能,为解决复杂的语言表达问题(如检测网络欺凌)提供帮助。
Jun, 2022
本文介绍了一种新的技术来创建单语和跨语言的元嵌入。通过使用多种技术、文本来源、知识库和语言创建的多个单词嵌入,使用线性变换和平均值将现有单词向量投射到公共语义空间,以保持原始嵌入的维度,并通过处理词汇表外的问题而不失去信息。经过广泛的实证评估,我们的技术在各种内在和外在的多语言评估方面表现出对以前工作的有效性,并获取了在语义文本相似性方面具有竞争力的结果,并在单词相似性和词性标注方面得到了最先进的性能(英文和西班牙文)。跨语言元嵌入还表现出优秀的跨语言转移学习能力,即我们可以利用资源丰富的语言中预训练的源嵌入来改进贫乏语言的单词表示。
Jan, 2020