Feb, 2015

循环神经网络语言模型的扩展

TL;DR本论文调查了循环神经网络语言模型(RNNLMs)的规模特性,对在 GPU 上训练非常大的 RNN 的方法进行了讨论,并探讨了有关模型大小、训练集大小、计算成本和内存方面的扩展性问题。研究结果展现出虽然训练成本更高,但相比于 N 元模型,RNNLMs 在标准测试中得到了更低的困惑度。此外,我们训练了目前已知的最大 RNN,并在 ASR 任务上表现出 18% 的相对词误差率提升,在最近发布的十亿字语言建模基准测试中呈现出新的最低困惑度、机器翻译的 1 BLEU 点表现提升以及词预测方面的 17% 相对命中率提高。