通过分离上下文n元信息来改进词向量嵌入

Apr, 2019

通过分离上下文n元信息来改进词向量嵌入

Better Word Embeddings by Disentangling Contextual n-Gram Information

Prakhar Gupta, Matteo Pagliardini, Martin Jaggi

TL;DR训练单词嵌入与高阶n-gram嵌入同时可以帮助消除上下文信息，从而得到更好的单词嵌入。通过在各种任务上显着优于其他竞争性单词表示模型，我们实证了我们的假设的有效性。

Abstract

Pre-trained word vectors are ubiquitous in Natural Language Processing applications. In this paper, we show how training word embeddings jointly with bigram and even trigram embeddings, results in improved unigra