BriefGPT.xyz
Jul, 2016
使用子词信息丰富单词向量
Enriching Word Vectors with Subword Information
HTML
PDF
Piotr Bojanowski, Edouard Grave, Armand Joulin, Tomas Mikolov
TL;DR
本文提出一种基于skip-gram模型的新方法,其中每个单词被表示为一组字符n-grams的加和。该方法快速、可在大型语料库上快速训练模型,同时可以计算未出现在训练数据中的单词的表示。我们在九种不同的语言上评估了我们的单词表示,通过与最近提出的形态单词表示进行比较,我们发现我们的向量在这些任务上达到了最先进的性能。
Abstract
Continuous
word representations
, trained on large unlabeled corpora are useful for many
natural language processing
tasks. Many popular models to learn such representations ignore the
→