Aug, 2018

大规模语言建模:在四小时内收敛于 40GB 文本

TL;DR本研究开发出用于自然语言处理的基于 RNN 的 4096 维乘法 LSTM 模型,结合混合精度算法和大规模并行计算,使模型短短 4 小时内能在亚马逊评论数据集上通过三次训练实现无监督文本重构;同时,我们提供了一种学习率策略,使得该模型可以在 32k 批量大小的情况下收敛,这一结果对于商用应用和深度学习研究者来说具有重要意义。