使用子词信息丰富单词向量

Jul, 2016

Enriching Word Vectors with Subword Information

Piotr Bojanowski, Edouard Grave, Armand Joulin, Tomas Mikolov

TL;DR本文提出一种基于skip-gram模型的新方法，其中每个单词被表示为一组字符n-grams的加和。该方法快速、可在大型语料库上快速训练模型，同时可以计算未出现在训练数据中的单词的表示。我们在九种不同的语言上评估了我们的单词表示，通过与最近提出的形态单词表示进行比较，我们发现我们的向量在这些任务上达到了最先进的性能。

Abstract

Continuous word representations, trained on large unlabeled corpora are useful for many natural language processing tasks. Many popular models to learn such representations ignore the →