将子词信息融入矩阵分解词向量
本研究通过对五种语言的三个任务进行大量实验研究,发现在利用子词级别信息进行词表示学习时,不同语言和任务下,分词和组成函数等关键组件的最优配置各异。同时,我们还发现,一些无监督分词方法,如 BPE 和 Morfessor 等,有时能够和甚至超过一些基于监督分词方法的配置。
Apr, 2019
本研究探讨了在低资源环境下,子词信息对单词表示学习的有用性以及其在细粒度实体类型、形态标注和命名实体识别等三个典型形态学任务中的应用价值,结果表明,子词信息可以普适地提升单词表示,但其效果受语言类型和任务的影响,同时,训练单词嵌入和基于任务的模型所需的数据越充足,子词信息的效果才会更好。
Sep, 2019
本文提出一种基于 skip-gram 模型的新方法,其中每个单词被表示为一组字符 n-grams 的加和。该方法快速、可在大型语料库上快速训练模型,同时可以计算未出现在训练数据中的单词的表示。我们在九种不同的语言上评估了我们的单词表示,通过与最近提出的形态单词表示进行比较,我们发现我们的向量在这些任务上达到了最先进的性能。
Jul, 2016
本文提出了一种基于子词级别的词向量生成模型来解决传统词向量模型无法应对未登录词、破音字等问题,并在英文词汇相似性任务和 23 种语言的词性标注和变形属性的联合预测任务中实现了最优表现。
Sep, 2018
本文提出了三种新模型,通过隐性使用形态信息增强单词嵌入,实验结果表明隐性模型优于传统显性模型,表现优于所有现有模型,并能在单词嵌入训练过程中补充语义信息。
Jan, 2017
通过利用子词增强嵌入式框架,本文介绍了一种学习和合成计算产生的子词级别表示的新方法,经过在英文和汉语测试基准上的各种文本理解任务中的实验测试,发现子词增强嵌入式显着改善了我们在各种文本理解任务上的基线。
Nov, 2018
通过将形态学信息融合到词向量中,构建了一个统一的概率框架,其中词嵌入是一个潜变量,并以形态学信息提供先验分布。此方法改进了内在词相似性评估,也在词性标注下游任务中提高了性能。
Aug, 2016
本文通过对现有单词嵌入方法的特点和分类任务的分析,将单词嵌入方法划分为传统方法和基于神经网络的方法,揭示基于神经网络的单词表示方法相比于传统方法更能捕捉语言的语义和句法规律。实验验证了不同方法的性能差异。
Mar, 2023