Jul, 2015

如何生成良好的词向量?

TL;DR本文分析词嵌入训练的三个关键组成部分,并将现有的基于神经网络的词嵌入算法系统化,并在相同语料库下进行比较评估。作者提供了几条简单指南以训练词嵌入。作者发现,选择合适领域的语料库比语料库大小更为重要。在此基础上使用更大的语料库能得到更好的结果。本文还展示了更快的模型在大多数情况下提供足够的性能,而更复杂的模型可以在培训语料库足够大的情况下使用,并且,对于迭代停止指标,应该依赖于所需任务的开发集,而不是训练嵌入的验证损失。